Canzona: асинхронный фреймворк для распределённых оптимизаторов на матрицах
Крупные языковые модели всё чаще используют матричные оптимизаторы — такие как Shampoo, Muon и SOAP — благодаря их высокой скорости сходимости. Но их требование к целостным обновлениям плохо сочетается с фрагментацией тензоров в распределённых системах вроде Megatron. Существующие подходы неидеальны: синхронные методы создают избыточную нагрузку, а послоевая разбивка нарушает геометрические ограничения эффективной коммуникации.
Авторы предложили Canzona — единый, асинхронный и сбалансированный по нагрузке фреймворк. Он разделяет логическое назначение оптимизаторов и физическое распределение параметров. При данных параллелизме введена стратегия альфа-сбалансированной статической разбивки, сохраняющая атомарность и устраняющая дисбаланс. Для тензорного параллелизма реализован асинхронный вычислительный конвейер с микрогрупповым планированием, позволяющий объединять фрагментированные обновления и скрывать накладные расходы реконструкции.
Тесты на модели Qwen3 (до 32 млрд параметров) на 256 GPU показали ускорение полного цикла итерации в 1,57 раза и снижение времени шага оптимизатора в 5,8 раза по сравнению с базовым решением.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.