OpenAI представляет GPT-4o в режиме реального времени
OpenAI представила новый режим работы API – Realtime API, использующий протокол WebSocket. Это позволяет значительно снизить задержки при создании голосовых AI-агентов, отказавшись от последовательной обработки "речь-текст-ответ-текст-голос".
Новый API обеспечивает прямой и постоянный канал связи с мультимодальными возможностями GPT-4o. Это переход от однократных запросов и ответов к потоковой передаче данных в режиме реального времени. Подключение осуществляется по адресу wss://api.openai.com/v1/realtime?model=gpt-4o-realtime-preview.
Ключевыми элементами архитектуры являются сессия (настройка системы), элементы (фрагменты диалога) и ответы (команды для генерации ответа). API поддерживает аудиокодеки PCM16 и G.711, требуя потоковую передачу аудиофрагментов длительностью 20-100 мс. Улучшена система определения начала и конца речи (VAD), теперь она способна отличать паузу для размышления от завершения фразы.
Взаимодействие с WebSocket происходит асинхронно, посредством различных событий, таких как начало записи речи, получение аудио- и текстовых фрагментов ответа, а также обрезка контекста при перебивании пользователя.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru