Thundersoft, Babel Street, and IBM Showcase Edge AI Advances
ThunderSoft Showcases Edge AI Innovations
ThunderSoft демонстрирует инновации в области Edge AI на выставке embedded world 2026.
Babel Street Announces Agentic Risk Intelligence
Babel Street анонсировала Agentic Risk Intelligence для эры AI-on-AI.
IBM AI Releases Granite 4.0 1B Speech
IBM выпустила Granite 4.0 1B Speech, компактную многоязыковую модель для автоматического распознавания речи (ASR) и двунаправленного автоматического перевода речи (AST). Выпуск ориентирован на корпоративные и Edge-развертывания, где важны такие параметры, как объем памяти, задержка и вычислительная эффективность.
Granite 4.0 1B Speech имеет в два раза меньше параметров, чем granite-speech-3.3-2b, при этом добавлена поддержка японского ASR, смещение по списку ключевых слов и улучшена точность транскрипции английской речи. Модель обеспечивает более быструю работу благодаря улучшенному обучению кодировщика и спекулятивному декодированию.
Granite-4.0-1b-speech обучена для многоязыкового ASR и двунаправленного AST с использованием публичных корпусов ASR и AST, а также синтетических данных для поддержки японского ASR, ASR со смещением по ключевым словам и перевода речи. Команда IBM адаптировала базовую языковую модель Granite 4.0 к речи с помощью выравнивания и мультимодального обучения.
Поддерживаемые языки включают английский, французский, немецкий, испанский, португальский и японский. Модель предназначена для преобразования речи в текст и перевода речи на эти языки и с этих языков на английский, а также для перевода с английского на итальянский и китайский. Модель распространяется под лицензией Apache 2.0.
Granite Speech использует двухпроходный дизайн, в котором сначала аудио транскрибируется в текст, а затем языковая модель обрабатывает транскрипт. Это означает, что конвейер транскрипции, построенный на основе Granite Speech, является модульным.
Granite 4.0 1B Speech заняла первое место в OpenASR leaderboard с Average WER 5.52 и RTFx 280.02, а также со значениями WER для конкретных наборов данных, такими как 1.42 на LibriSpeech Clean, 2.85 на LibriSpeech Other, 3.89 на SPGISpeech, 3.1 на Tedlium и 5.84 на VoxPopuli.
Granite 4.0 1B Speech поддерживается в transformers>=4.52 и может обслуживаться через vLLM. Референс transformers flow использует AutoModelForSpeechSeq2Seq и AutoProcessor, ожидает моно 16 кГц аудио и форматирует запросы с помощью <|audio|>. Для сред с ограниченными ресурсами IBM’s vLLM example sets max_model_len=2048 и limit_mm_per_prompt={"audio": 1}.
Granite 4.0 1B Speech — это компактная модель речи для многоязыкового ASR и двунаправленного AST. Модель имеет в два раза меньше параметров, чем granite-speech-3.3-2b, при этом повышает эффективность развертывания и добавляет поддержку японского ASR. Модель поддерживает развертывание через Transformers, vLLM и mlx-audio, включая среды Apple Silicon. Она предназначена для устройств с ограниченными ресурсами, где важны задержка, память и вычислительные затраты. Model Page Repo Technical details
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru