Canzona: асинхронный фреймворк для распределённых оптимизаторов на матрицах

Крупные языковые модели всё чаще используют матричные оптимизаторы — такие как Shampoo, Muon и SOAP — благодаря их высокой скорости сходимости. Но их требование к целостным обновлениям плохо сочетается с фрагментацией тензоров в распределённых системах вроде Megatron. Существующие подходы неидеальны: синхронные методы создают избыточную нагрузку, а послоевая разбивка нарушает геометрические ограничения эффективной коммуникации.

Авторы предложили Canzona — единый, асинхронный и сбалансированный по нагрузке фреймворк. Он разделяет логическое назначение оптимизаторов и физическое распределение параметров. При данных параллелизме введена стратегия альфа-сбалансированной статической разбивки, сохраняющая атомарность и устраняющая дисбаланс. Для тензорного параллелизма реализован асинхронный вычислительный конвейер с микрогрупповым планированием, позволяющий объединять фрагментированные обновления и скрывать накладные расходы реконструкции.

Тесты на модели Qwen3 (до 32 млрд параметров) на 256 GPU показали ускорение полного цикла итерации в 1,57 раза и снижение времени шага оптимизатора в 5,8 раза по сравнению с базовым решением.

НАВИГАЦИЯ

МЕНЮ

Похожие новости

Многоуровневые фильтры безопасности для LLM: защита от атак | Новости ИИ

Исследование MIT: рейтинги больших языковых моделей могут быть нестабильными

NVIDIA представляет Nemotron-3-Nano-30B в формате NVFP4

Google представляет Conductor: расширение Gemini CLI с контекстным управлением