Microsoft VibeVoice-ASR: модель распознавания речи для длинных аудио
Microsoft выпустила VibeVoice-ASR – модель преобразования речи в текст, способную обрабатывать длинные аудиозаписи до 60 минут за один проход. Она определяет, кто, когда и что было сказано, а также поддерживает настройку под специфические термины.
VibeVoice-ASR является частью семейства открытых моделей VibeVoice, включающего в себя инструменты для синтеза речи и автоматического распознавания. Модель использует непрерывные токенизаторы и архитектуру на основе диффузии, что позволяет ей сохранять контекст на протяжении всей записи.
Разработчики предоставляют инструменты для тонкой настройки модели, что позволяет адаптировать ее под конкретные задачи и области применения.
Дополнительная информация:
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru