tencent ai открыла исходный код covo-audio

Автор

Heli

Опубликовано 26.03.2026

0,0

Tencent AI открыла исходный код Covo-Audio — 7B-параметровой end-to-end аудиоязыковой модели и конвейера вывода для разговоров и рассуждений в реальном времени.

В отличие от классических систем, которые последовательно пропускают аудио через три отдельных компонента (распознавание → языковая модель → синтез речи), Covo-Audio обрабатывает непрерывный аудиовход и генерирует аудиовыход в единой архитектуре за один проход. Это снижает накопление ошибок и задержку.

Модель прошла двухэтапное предобучение на 2 триллионах токенов, охватывающих речевые и текстовые данные на нескольких языках. На бенчмарках MMAU и MMSU Covo-Audio показала лучшие результаты среди моделей своего масштаба, сравнявшись с некоторыми 32B-системами.

Отдельно выпущен вариант Covo-Audio-Chat-FD с поддержкой full-duplex — то есть модель может одновременно слушать и говорить с низкой задержкой, что важно для голосовых помощников реального времени.

Веса модели и код для инференса опубликованы на GitHub и HuggingFace под лицензией CC BY 4.0.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Похожие новости

tencent ai открыла исходный код covo-audio

Похожие новости

Ускорение обучения LLM: новый метод от MIT и NVIDIA

multilevel training for kolmogorov arnold networks

Запустите ai модель преобразования речи в речь локально

Olmo: новая гибридная языковая модель от together ai

LFM2-24B-A2B: Новая архитектура ИИ для периферийных устройств

Контекстное проектирование LLM: Когда 'помощь' вредит