Qwen3-TTS от Alibaba Cloud: Синтез речи на 10 языках и клонирование голоса и ...

Qwen3-TTS от Alibaba Cloud: Синтез речи на 10 языках и клонирование голоса

Команда Qwen из Alibaba Cloud представила Qwen3-TTS – семейство моделей для преобразования текста в речь, охватывающее три ключевые задачи: клонирование голоса, создание голоса и высококачественный синтез речи.\r \r Qwen3-TTS включает модели двух размеров – 0.6B и 1.7B. \r Доступно 5 моделей: для клонирования и общего синтеза речи (Qwen3-TTS-12Hz-0.6B-Base и Qwen3-TTS-12Hz-1.7B-Base). \r \r Для работы с готовыми голосами (Qwen3-TTS-12Hz-0.6B-CustomVoice и Qwen3-TTS-12Hz-1.7B-CustomVoice).\r \r И для создания новых голосов из текстового описания (Qwen3-TTS-12Hz-1.7B-VoiceDesign), а также кодек Qwen3-TTS-Tokenizer-12Hz.\r \r Система поддерживает 10 языков: китайский, английский, японский, корейский, немецкий, французский, русский, португальский, испанский и итальянский. \r \r Модель VoiceDesign позволяет создавать новые голоса, например, "говорить голосом нервного подростка с повышающейся интонацией".\r \r Ключевым компонентом является кодек Qwen3-TTS-Tokenizer-12Hz, обеспечивающий высокую скорость и качество синтеза.\r \r В тестах Qwen3-TTS показала высокую точность и качество синтеза речи на разных языках, превзойдя другие открытые модели и приблизившись к коммерческим решениям.

Microsoft VibeVoice-ASR: модель распознавания речи для длинных аудио

Microsoft выпустила VibeVoice-ASR – модель преобразования речи в текст, способную обрабатывать длинные аудиозаписи до 60 минут за один проход. Она определяет, кто, когда и что было сказано, а также поддерживает настройку под специфические термины.\r \r VibeVoice-ASR является частью семейства открытых моделей VibeVoice, включающего в себя инструменты для синтеза речи и автоматического распознавания. Модель использует непрерывные токенизаторы и архитектуру на основе диффузии, что позволяет ей сохранять контекст на протяжении всей записи.\r \r Разработчики предоставляют инструменты для тонкой настройки модели, что позволяет адаптировать ее под конкретные задачи и области применения.\r \r Дополнительная информация:\r \r - Репозиторий проекта\r - Веса модели

StepFun — Step-DeepResearch (Qwen2.5 32B): агент для глубинных исследований

StepFun выпустила Step-DeepResearch - агент на 32 миллиардах параметров, который пытается делать нормальные исследования вместо обычного поиска. Взяли Qwen2.5 32B и научили планировать, искать инфу, проверять факты и писать отчеты.\r \r Обычные веб-агенты ищут короткие ответы на вопросы. Тут другая история - модель разбивает задачу на части, лазит по источникам, перепроверяет данные и собирает всё в структурированный отчет с ссылками.\r \r Обучали в три этапа. Сначала базовые возможности без инструментов, потом добавили вызовы API и увеличили контекст до 128 тысяч токенов, в конце дообучили через reinforcement learning с оценкой качества отчетов.\r \r Во время работы агент использует ReAct-паттерн - думает, вызывает инструменты, смотрит на результат, думает дальше. Есть поиск, менеджер задач, работа с файлами. Поисковая база - 20+ миллионов статей и отфильтрованные надежные домены.\r \r На Scale AI Research Rubrics выдает 61% соответствия критериям, примерно как у OpenAI и Gemini. На китайском бенчмарке ADR-Bench обходит открытые модели покрупнее.\r \r Модель на 32B параметров справляется с задачами для которых обычно нужны гораздо более тяжелые системы. Подходит для техобзоров, аналитики, проверки фактов там, где надо не просто нагуглить, а разобраться в теме.