Qwen3-TTS от Alibaba Cloud: Синтез речи на 10 языках и клонирование голоса
Команда Qwen из Alibaba Cloud представила Qwen3-TTS – семейство моделей для преобразования текста в речь, охватывающее три ключевые задачи: клонирование голоса, создание голоса и высококачественный синтез речи.
Qwen3-TTS включает модели двух размеров – 0.6B и 1.7B. Доступно 5 моделей: для клонирования и общего синтеза речи (Qwen3-TTS-12Hz-0.6B-Base и Qwen3-TTS-12Hz-1.7B-Base).
Для работы с готовыми голосами (Qwen3-TTS-12Hz-0.6B-CustomVoice и Qwen3-TTS-12Hz-1.7B-CustomVoice).
И для создания новых голосов из текстового описания (Qwen3-TTS-12Hz-1.7B-VoiceDesign), а также кодек Qwen3-TTS-Tokenizer-12Hz.
Система поддерживает 10 языков: китайский, английский, японский, корейский, немецкий, французский, русский, португальский, испанский и итальянский.
Модель VoiceDesign позволяет создавать новые голоса, например, "говорить голосом нервного подростка с повышающейся интонацией".
Ключевым компонентом является кодек Qwen3-TTS-Tokenizer-12Hz, обеспечивающий высокую скорость и качество синтеза.
В тестах Qwen3-TTS показала высокую точность и качество синтеза речи на разных языках, превзойдя другие открытые модели и приблизившись к коммерческим решениям.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru