aira2: новый подход к исследованиям в области искусственного интеллекта

AIRA2 решает проблемы, сдерживающие исследования в области искусственного интеллекта. AIRA2 — это новая система, разработанная исследователями из Meta's FAIR lab и сотрудничающих институтов, которая представляет собой значительный шаг вперед в этой области.

Ключевые особенности

Предыдущие попытки создания агентов для исследования искусственного интеллекта постоянно натыкались на одни и те же ограничения. Команда AIRA2 выявила ключевые узкие места, которые ограничивают прогресс, независимо от количества вычислительных ресурсов. К ним относятся:

Ограниченная пропускная способность вычислений. Большинство агентов работают синхронно на одном GPU, простаивая во время завершения экспериментов, что значительно замедляет итерацию и ограничивает исследование.
Слишком мало экспериментов в день. Из-за этого узкого места агенты могут тестировать только ~10–20 кандидатов в день, что слишком мало для эффективного поиска в большом пространстве решений.
Разрыв в обобщении. Вместо улучшения со временем, агенты часто ухудшаются, преследуя краткосрочные выгоды, которые не сохраняются.
Использование метрик и шум в оценке. Агенты эксплуатируют недостатки в собственной оценке, выигрывая от удачных разделений данных или незамеченных ошибок, которые искажают результаты.
Жесткие одноходовые запросы. Предопределенные действия, такие как "написать код" или "отладить", ломаются в сложных сценариях, оставляя агентов в тупике, когда задачи становятся многоэтапными или непредсказуемыми.

AIRA2 решает каждое из этих узких мест с помощью конкретных архитектурных инноваций. Для решения проблемы с вычислительными ресурсами система использует асинхронный пул много-GPU работников. Используя восемь рук вместо одной, многозадачность становится реальностью. В то время как один работник обучает модель на своем выделенном GPU, оркестратор отправляет новые эксперименты другим, сжимая дни последовательной работы до нескольких часов.

Для решения проблемы с разрывом в обобщении AIRA2 реализует протокол Hidden Consistent Evaluation (HCE). Система разделяет данные на три набора: обучающие данные, которые может видеть агент, скрытый набор для оценки кандидатов и набор валидации, используемый только для окончательного отбора. Агент никогда не видит метки скрытого и валидационного наборов, предотвращая использование метрик и чрезмерную сообразительность. Вся оценка происходит внешне в изолированных контейнерах с фиксированными разделениями данных на протяжении всего поиска.

Чтобы преодолеть ограничения статических операторов, AIRA2 заменяет фиксированные запросы агентами ReAct, которые могут рассуждать и действовать автономно. Эти суб-агенты могут выполнять разведочный анализ данных, запускать быстрые эксперименты, проверять журналы ошибок и итеративно отлаживать проблемы. Вместо того, чтобы терпеть неудачу при столкновении с неожиданной ошибкой, они могут исследовать, выдвигать гипотезы и пробовать несколько исправлений в течение одной сессии, больше напоминая целеустремленного исследователя, чем сценарий, который сдается после одного исключения.

Исследователи оценили AIRA2 на MLE-bench-30, коллекции из 30 соревнований по машинному обучению Kaggle, охватывающих компьютерное зрение и обработку естественного языка. Используя 8 NVIDIA H200 GPU и модель Google's Gemini 3.0 Pro, AIRA2 достигла среднего процентильного ранга 71.8% за 24 часа, превзойдя предыдущий лучший результат в 69.9%. Более впечатляющим было то, что он продолжал улучшаться до 76.0% за 72 часа, в то время как предыдущие системы обычно ухудшались с увеличением времени работы, как марафонцы, которые забыли тренироваться.

Исследования, посвященные отмене, выявили важные идеи. Удаление параллельной вычислительной возможности привело к снижению производительности более чем на 12 процентных пунктов через 72 часа. Без протокола скрытой оценки производительность стабилизировалась через 24 часа и не улучшалась при добавлении дополнительных вычислений. Агенты ReAct оказались особенно ценными в начале поиска, обеспечивая увеличение на 5.5 процентных пунктов через 3 часа за счет более эффективного исследования.

Самым показательным было открытие об переобучении. Внедрив последовательную оценку, исследователи обнаружили, что снижение производительности, наблюдаемое в предыдущих работах, было не связано с запоминанием данных. Вместо этого оно было вызвано шумом в оценке и использованием метрик. Как только эти источники нестабильности были контролировались, производительность агента монотонно улучшалась с добавлением дополнительных вычислений.

AIRA2 продемонстрировала моменты настоящего научного рассуждения. На задаче по прогнозированию молекул, где всем остальным агентам не удалось добиться каких-либо наград, AIRA2 заметила, что неэффективная модель обучается подозрительно быстро, что является красным флагом в машинном обучении. Вместо того, чтобы отбрасывать подход, агент изучил журналы, правильно диагностировал недостаточную подгонку, увеличил параметры модели, увеличил время обучения и достиг золотого рейтинга.

Подобные прорывы произошли и в других сложных задачах. В задаче по заполнению текста AIRA2 разложила проблему на два полученных подзадачи, обучая отдельные модели для определения отсутствующих позиций слов и заполнения пробелов. В задаче по точной классификации изображений с 3474 классами она добилась наивысшего балла среди всех оцениваемых агентов, тщательно объединив несколько моделей зрения с асимметричными функциями потерь.

Ключевые особенности

Похожие новости

Microsoft Research представляет CORPGEN для автономных AI-агентов и ещё 41 но...

servicenow представляет enterpriseops-gym для оценки планирования агентов и е...

CoMT: метод обучения AI по принципам человеческого мышления и ещё 20 новости

Nvidia создает открытые данные для искусственного интеллекта и ещё 9 новости

ИИ-агенты для кодирования: контекст может навредить и ещё 16 новости

google ai представляет gws cli для api workspace и ещё 17 новости