Динамическая Гибридная Параллелизация для MLLM

Развитие возможностей работы с длинным контекстом критически важно для мультимодальных больших языковых моделей (MLLM). Однако реальные мультимодальные наборы данных крайне неоднородны. Существующие фреймворки для обучения в основном полагаются на статические стратегии параллелизации, которые страдают от серьезного дисбаланса нагрузки, избыточной коммуникации и неоптимального использования оборудования при гетерогенности данных.

Динамическая Гибридная Параллелизация (DHP)

В данной работе предложена стратегия динамической гибридной параллелизации (DHP), которая позволяет адаптивно реконфигурировать группы коммуникаций и степени параллелизма в процессе обучения MLLM.

DHP обобщает понятие степеней параллелизма, не являющихся степенью двойки, и разрабатывает алгоритм, работающий за полиномиальное время, для генерации почти оптимальных стратегий параллелизации с накладными расходами в миллисекундах на каждую обучающую партию. Это позволяет DHP поддерживать высокую эффективность использования оборудования даже при экстремальной изменчивости данных.

Результаты экспериментов

Экспериментальные результаты показывают, что DHP значительно превосходит Megatron-LM и DeepSpeed, достигая ускорения пропускной способности обучения до 1.36 раза, сохраняя при этом почти линейную эффективность масштабирования в больших кластерах NPU.

НАВИГАЦИЯ

МЕНЮ

Динамическая Гибридная Параллелизация (DHP)

Результаты экспериментов

Похожие новости

Ускорение обучения LLM: новый метод от MIT и NVIDIA

Смесь Экспертов (MoE) в Трансформерах: Масштабирование и Эффективность

ExpLang: Многоязычное обучение с подкреплением для LLM

Новый метод ускоряет обучение больших языковых моделей

Исследование MIT: рейтинги больших языковых моделей могут быть нестабильными

Контекстное проектирование LLM: Когда 'помощь' вредит