Heli
28.02.2026
Уменьшение структурного шума в малоресурсном s2tt непали-английский
Уменьшение структурного шума в малоресурсном переводе текста в речь (S2TT): оптимизированный каскадный конвейер непали-английский с восстановлением пунктуации.
В задачах преобразования текста в речь (TTS) низкоресурсных языков структурный шум, такой как …
Heli
02.02.2026
Qwen3-TTS: локальный синтез и клонирование голоса - Гайд по моделям от Alibaba
Несколько дней назад Alibaba открыла доступ к своим моделям для генерации аудио. Такие релизы случаются нечасто. Я решил проверить возможности и поделиться результатами.
5 моделей Qwen3-TTS
В релиз вошли пять …
Статьи о TTS и синтезе речи
Разбираем ведущие инструменты: ElevenLabs (лучшее качество голоса, клонирование), OpenAI TTS (встроен в API, 6 голосов), Bark (open-source, многоязычный), Tortoise-TTS (высокое качество, медленный), Coqui и Fish Speech.
Практические применения: озвучка подкастов и YouTube-видео, создание голосовых ботов и IVR-систем, аудиокниги, персонализированные голосовые ассистенты, синтез речи на русском языке.
Отдельные материалы посвящены клонированию голоса: как создать свой голос с минимальным количеством записей, какие юридические и этические ограничения существуют.
Рассматриваем интеграцию TTS в пайплайны: как соединить STT (распознавание речи), LLM и TTS для создания полноценного голосового ассистента. Сравниваем по параметрам: качество, скорость, стоимость, поддержка русского языка.