OpenEnv: проверка ai-агентов с инструментами в реальных условиях
Исследователи представили OpenEnv — тестовую платформу для оценки способностей AI-агентов, умеющих пользоваться инструментами. В отличие от симуляций, среда работает в реальном мире: агенты взаимодействуют с физическими устройствами и средой через API.
Тестирование проводится с помощью реальных инструментов — например, клиента Telegram или веб-браузера. Платформа проверяет, насколько хорошо агент может использовать интерфейсы, интерпретировать возвращаемые данные и принимать решения в динамичной обстановке. Все это — без доступа к внутреннему коду систем.
OpenEnv доступен как открытый проект под лицензией MIT. Код и инструкции по запуску уже размещены на GitHub. Тесты показали, что даже современные модели часто ошибаются при интерпретации интерфейсов — особенно в сложных или нестандартных сценариях.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru