Microsoft VibeVoice-ASR: модель распознавания речи для длинных аудио

Автор

Heli

Опубликовано 26.01.2026

0,0

Microsoft выпустила VibeVoice-ASR – модель преобразования речи в текст, способную обрабатывать длинные аудиозаписи до 60 минут за один проход. Она определяет, кто, когда и что было сказано, а также поддерживает настройку под специфические термины.

VibeVoice-ASR является частью семейства открытых моделей VibeVoice, включающего в себя инструменты для синтеза речи и автоматического распознавания. Модель использует непрерывные токенизаторы и архитектуру на основе диффузии, что позволяет ей сохранять контекст на протяжении всей записи.

Разработчики предоставляют инструменты для тонкой настройки модели, что позволяет адаптировать ее под конкретные задачи и области применения.

Дополнительная информация:

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Похожие новости

НАВИГАЦИЯ

МЕНЮ

Microsoft VibeVoice-ASR: модель распознавания речи для длинных аудио

Похожие новости

Kimi K2.5 от Moonshot AI: мультимодальная модель с 1T параметров и Agent Swarm

NVIDIA Nemotron 3: открытые модели для AI-агентов с контекстом 1 млн токенов

Новые открытые модели ИИ: Arcee, LiquidAI и другие

Kyutai выпустила Hibiki-Zero — S2ST модель без выравнивания по словам

NVIDIA Nemotron 2 Nano 9B: AI для японского языка

Qwen3-Max-Thinking от Alibaba: новая AI-модель для рассуждений и работы с кодом