AI news

Microsoft VibeVoice-ASR: модель распознавания речи для длинных аудио

Heli
Автор
Heli
Опубликовано 26.01.2026
0,0
Views 75

Microsoft выпустила VibeVoice-ASR – модель преобразования речи в текст, способную обрабатывать длинные аудиозаписи до 60 минут за один проход. Она определяет, кто, когда и что было сказано, а также поддерживает настройку под специфические термины.

VibeVoice-ASR является частью семейства открытых моделей VibeVoice, включающего в себя инструменты для синтеза речи и автоматического распознавания. Модель использует непрерывные токенизаторы и архитектуру на основе диффузии, что позволяет ей сохранять контекст на протяжении всей записи.

Разработчики предоставляют инструменты для тонкой настройки модели, что позволяет адаптировать ее под конкретные задачи и области применения.

Дополнительная информация:

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие новости