OpenEnv: проверка ai-агентов с инструментами в реальных условиях

Автор

Heli

Опубликовано 12.02.2026

0,0

Исследователи представили OpenEnv — тестовую платформу для оценки способностей AI-агентов, умеющих пользоваться инструментами. В отличие от симуляций, среда работает в реальном мире: агенты взаимодействуют с физическими устройствами и средой через API.

Тестирование проводится с помощью реальных инструментов — например, клиента Telegram или веб-браузера. Платформа проверяет, насколько хорошо агент может использовать интерфейсы, интерпретировать возвращаемые данные и принимать решения в динамичной обстановке. Все это — без доступа к внутреннему коду систем.

OpenEnv доступен как открытый проект под лицензией MIT. Код и инструкции по запуску уже размещены на GitHub. Тесты показали, что даже современные модели часто ошибаются при интерпретации интерфейсов — особенно в сложных или нестандартных сценариях.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Похожие новости