Kyutai выпустила Hibiki-Zero — S2ST модель без выравнивания по словам — Новости ИИ

Kyutai анонсировала Hibiki-Zero — новую модель для одновременного перевода речи в речь (S2ST) и речи в текст (S2TT). Система работает в реальном времени, обрабатывая неравномерные зависимости между словами и не требуя при обучении данных с выравниванием на уровне отдельных слов. Это устраняет одно из главных препятствий при масштабировании переводческих систем на новые языки.

Архитектура модели основана на decoder-only дизайне с многостримовой обработкой: исходный аудиопоток, целевой аудиопоток и «внутренний монолог» — промежуточный текстовый поток, выровненный по времени с переводом. Для кодирования речи используется кольцевой аудиокодек Mimi (12,5 кадров/с), а в качестве языковой модели — RQ-Transformer. Всего в модели 3 млрд параметров, контекст — до 4 минут речи, 16 уровней кодирования для высокого качества.

Обучение проходит в два этапа: сначала модель тренируется на предложениях с выравниванием по предложениям, а затем оптимизируется методом GRPO (Group Relative Policy Optimization), минимизируя задержку перевода. При этом оценка качества происходит через BLEU-балл на промежуточных этапах. В качестве теста новый язык (итальянский) добавили всего за менее чем 1000 часов речевых данных, добившись качества, сравнимого с Meta’s Seamless, но при этом показатели по сходству голоса оказались на 30+ баллов выше.