Autoagent: автоматическая разработка и оптимизация ai-агентов

Встречайте «AutoAgent» — библиотеку с открытым исходным кодом, позволяющую ИИ-агентам разрабатывать и оптимизировать самих себя в течение ночи.

AutoAgent автоматизирует процесс итерации над агентами — изменяя системный промпт, инструменты, конфигурацию агента и оркестровку, запуская бенчмарк, проверяя оценку и повторяя процесс.

Библиотека имеет простую структуру: agent.py содержит всю систему под тестом, а program.md содержит инструкции для «мета-агента» — ИИ более высокого уровня, который выполняет изменения.

AutoAgent использует цикл «предложить — обучить — оценить», аналогичный autoresearch для обучения моделей машинного обучения, но оптимизирует «каркас» агента — системный промпт, определения инструментов и стратегию оркестровки.

Бенчмарки выражаются в формате Harbor, с использованием Docker для изоляции. Тесты могут использовать детерминированные проверки или LLM в качестве судьи для оценки правильности выходных данных агента.

Ключевые выводы: автономная разработка каркаса работает — AutoAgent показала себя лучше людей в проектировании агентов, достигнув #1 на SpreadsheetBench с результатом 96.5% и #1 GPT-5 на TerminalBench с результатом 55.1%. Мета-агент Claude, оптимизирующий агента Claude, показал более точную диагностику сбоев, чем при оптимизации агента на основе GPT, что указывает на важность парного моделирования. Роль человека меняется с инженера на директора — вы пишете program.md, а не agent.py. AutoAgent совместима с любым бенчмарком, использующим формат Harbor и работающим в Docker-контейнерах.

Похожие новости

Gitagent: docker для ai-агентов, решающий проблему фрагментации и ещё 10 новости

Безопасные конвейеры llm с outlines и pydantic и ещё 15 новости

context hub: новый инструмент для кодирующих агентов от эндрю нга и ещё 12 но...

Пятиуровневая структура безопасности для автономных агентов llm и ещё 17 новости

Саморазвивающаяся система навыков на основе openspace и ещё 16 новости

Будущее искусственного интеллекта и науки и ещё 12 новости