Динамическая Гибридная Параллелизация для MLLM
Развитие возможностей работы с длинным контекстом критически важно для мультимодальных больших языковых моделей (MLLM). Однако реальные мультимодальные наборы данных крайне неоднородны. Существующие фреймворки для обучения в основном полагаются на статические стратегии параллелизации, которые страдают от серьезного дисбаланса нагрузки, избыточной коммуникации и неоптимального использования оборудования при гетерогенности данных.
Динамическая Гибридная Параллелизация (DHP)
В данной работе предложена стратегия динамической гибридной параллелизации (DHP), которая позволяет адаптивно реконфигурировать группы коммуникаций и степени параллелизма в процессе обучения MLLM.
DHP обобщает понятие степеней параллелизма, не являющихся степенью двойки, и разрабатывает алгоритм, работающий за полиномиальное время, для генерации почти оптимальных стратегий параллелизации с накладными расходами в миллисекундах на каждую обучающую партию. Это позволяет DHP поддерживать высокую эффективность использования оборудования даже при экстремальной изменчивости данных.
Результаты экспериментов
Экспериментальные результаты показывают, что DHP значительно превосходит Megatron-LM и DeepSpeed, достигая ускорения пропускной способности обучения до 1.36 раза, сохраняя при этом почти линейную эффективность масштабирования в больших кластерах NPU.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru