LLM

Динамическая Гибридная Параллелизация для MLLM

Heli
Автор
Heli
Опубликовано 27.02.2026
0,0
Views 2

Развитие возможностей работы с длинным контекстом критически важно для мультимодальных больших языковых моделей (MLLM). Однако реальные мультимодальные наборы данных крайне неоднородны. Существующие фреймворки для обучения в основном полагаются на статические стратегии параллелизации, которые страдают от серьезного дисбаланса нагрузки, избыточной коммуникации и неоптимального использования оборудования при гетерогенности данных.

Динамическая Гибридная Параллелизация (DHP)

В данной работе предложена стратегия динамической гибридной параллелизации (DHP), которая позволяет адаптивно реконфигурировать группы коммуникаций и степени параллелизма в процессе обучения MLLM.

DHP обобщает понятие степеней параллелизма, не являющихся степенью двойки, и разрабатывает алгоритм, работающий за полиномиальное время, для генерации почти оптимальных стратегий параллелизации с накладными расходами в миллисекундах на каждую обучающую партию. Это позволяет DHP поддерживать высокую эффективность использования оборудования даже при экстремальной изменчивости данных.

Результаты экспериментов

Экспериментальные результаты показывают, что DHP значительно превосходит Megatron-LM и DeepSpeed, достигая ускорения пропускной способности обучения до 1.36 раза, сохраняя при этом почти линейную эффективность масштабирования в больших кластерах NPU.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие новости