Mistral ai представляет voxtral tts – модель синтеза речи
Компания Mistral AI выпустила Voxtral TTS, модель потоковой синтеза речи с открытым весом, предназначенную для генерации голоса на нескольких языках с низкой задержкой. Размер модели составляет 4 миллиарда параметров.
Voxtral TTS способна генерировать речь в потоковом режиме, что позволяет снизить задержку и повысить скорость отклика. Модель поддерживает 9 языков: английский, французский, немецкий, испанский, голландский, португальский, итальянский, хинди и арабский. Модель имеет открытый вес, что позволяет исследователям и разработчикам использовать и адаптировать ее для своих собственных нужд.
Разработчики утверждают, что Voxtral TTS обеспечивает высокое качество генерации голоса и подходит для различных приложений, таких как голосовые помощники, системы преобразования текста в речь и мультимедийные приложения. Модель имеет задержку 70 мс для 10-секундного голосового примера и 500 символов ввода и коэффициент RTF около 9.7x.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru