AI news

OpenAI представляет GPT-4o в режиме реального времени

Heli
Автор
Heli
Опубликовано 24.02.2026
0,0
Views 2

OpenAI представила новый режим работы API – Realtime API, использующий протокол WebSocket. Это позволяет значительно снизить задержки при создании голосовых AI-агентов, отказавшись от последовательной обработки "речь-текст-ответ-текст-голос".

Новый API обеспечивает прямой и постоянный канал связи с мультимодальными возможностями GPT-4o. Это переход от однократных запросов и ответов к потоковой передаче данных в режиме реального времени. Подключение осуществляется по адресу wss://api.openai.com/v1/realtime?model=gpt-4o-realtime-preview.

Ключевыми элементами архитектуры являются сессия (настройка системы), элементы (фрагменты диалога) и ответы (команды для генерации ответа). API поддерживает аудиокодеки PCM16 и G.711, требуя потоковую передачу аудиофрагментов длительностью 20-100 мс. Улучшена система определения начала и конца речи (VAD), теперь она способна отличать паузу для размышления от завершения фразы.

Взаимодействие с WebSocket происходит асинхронно, посредством различных событий, таких как начало записи речи, получение аудио- и текстовых фрагментов ответа, а также обрезка контекста при перебивании пользователя.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие новости