CORPGEN: Платформа для управления ИИ-агентами в сложных корпоративных средах

Microsoft Research представила CORPGEN – платформу, не зависящую от архитектуры, разработанную для управления сложностями реальной организации работы через автономных цифровых сотрудников. В то время как существующие бенчмарки оценивают ИИ-агентов по изолированным, единичным задачам, реальные корпоративные среды требуют управления десятками одновременных, переплетающихся задач со сложными зависимостями. Исследовательская группа определяет этот особый класс задач как Многоуровневые среды задач (MHTEs).

Проблемы производительности в MHTEs

Эмпирические тесты показывают, что базовые агенты на основе компьютера (CUAs) испытывают значительное снижение производительности при переходе от сценариев с одной задачей к MHTEs. Использование трех независимых реализаций CUAs показало, что коэффициент завершения снизился с 16,7% при нагрузке 25% до 8,7% при 100% нагрузке.

Исследовательская группа выявила четыре основных режима отказа, вызывающих это снижение:

Насыщение контекста: Требования к контексту растут пропорционально количеству задач (O(N)), а не остаются постоянными (O(1)), быстро превышая емкость токенного окна.
Помехи памяти: Информация из одной задачи часто искажает рассуждения о другой, когда несколько задач используют одно и то же контекстное окно.
Сложность графа зависимостей: Корпоративные задачи формируют направленные ациклические графы (DAG), а не линейные цепочки, требующие сложного топологического рассуждения.
Затраты на переприоритизацию: Сложность принятия решений увеличивается до O(N) за цикл, поскольку агентам постоянно приходится переоценивать приоритеты среди всех активных задач.

Архитектура CORPGEN

Для решения этих проблем CORPGEN реализует возможности Многоцелевого Многоуровневого Агента (MOMA) посредством четырех основных архитектурных механизмов.

(a) Иерархическое планирование

Стратегическая согласованность поддерживается посредством декомпозиции целей по трем временным масштабам:

Стратегические цели (ежемесячные): Высокоуровневые цели и этапы, основанные на идентификации и роли агента.
Тактические планы (ежедневные): Действенные задачи для конкретных приложений с приоритетными рангами.
Оперативные действия (за цикл): Индивидуальные вызовы инструментов, выбираемые на основе текущего состояния и извлеченной памяти.

(b) Изоляция под-агентов

Сложные операции, такие как автоматизация графического интерфейса или исследования, изолируются в модульные под-агенты. Эти автономные агенты работают в своих собственных областях контекста и возвращают только структурированные результаты основному агенту, предотвращая загрязнение памяти между задачами.

(c) Многоуровневая архитектура памяти

Система использует трехслойную структуру памяти для управления состоянием:

Рабочая память: Предназначена для немедленного рассуждения, этот слой сбрасывается каждый цикл.
Структурированная долговременная память (LTM): Хранит типизированные артефакты, такие как планы, сводки и размышления.
Семантическая память: Использует Mem0 для поддержки поиска на основе сходства по неструктурированному прошлому контексту с использованием вложений.

Чтобы ограничить рост контекста, CORPGEN использует сжатие на основе правил. Когда длина контекста превышает 4000 токенов, "критическое содержание" (такое как вызовы инструментов и изменения состояния) сохраняется в неизменном виде, а "обычное содержание" (промежуточное рассуждение) сжимается в структурированные сводки.

Экспериментальные результаты и обучение

В трех бэкэндах CUAs (UFO2, OpenAI CUA и иерархический), CORPGEN достигла улучшения до 3,5 раза по сравнению с базовыми показателями, достигнув коэффициента завершения 15,2% по сравнению с 4,3% для автономного UFO2 при нагрузке 100%.

Исследования показали, что эмпирическое обучение обеспечивает наибольший прирост производительности. Этот механизм перегоняет успешное выполнение задач в канонические траектории, которые затем индексируются в базе данных FAISS. Во время выполнения подобные траектории извлекаются в качестве примеров для небольшого количества выстрелов, чтобы склонить выбор действия к проверенным шаблонам.

Исследовательская группа обнаружила существенное расхождение в методах оценки. Оценка на основе артефактов (проверка сгенерированных файлов и результатов) достигла 90% соответствия с метками человека. В отличие от этого, оценка на основе LLM (основанная на скриншотах и логах выполнения) достигла только 40% соответствия. Это говорит о том, что существующие бенчмарки могут систематически занижать производительность агента, полагаясь на ограниченные визуальные следы, а не на фактические созданные артефакты.

Ключевые выводы

Идентификация многоуровневых сред задач (MHTEs): Исследовательская группа определяет новый класс проблем, называемый MHTEs, где агенты должны управлять десятками переплетенных задач с длинным горизонтом (45+ задач, 500-1500+ шагов) в одном постоянном контексте. Это отличается от традиционных бенчмарков, которые оценивают отдельные задачи.
Обнаружение катастрофического снижения производительности: Стандартные агенты на основе компьютера (CUAs) испытывают "катастрофическое" снижение производительности при увеличении нагрузки, при этом коэффициент завершения падает с 16,7% при нагрузке 25% до 8,7% при 100% нагрузке.
Четыре основных режима отказа: Исследователи выявили, почему существующие агенты не справляются с нагрузкой: насыщение контекста (рост O(N)), помехи памяти (смешение задач), сложность зависимостей (управление направленными ациклическими графами) и затраты на переприоритизацию (сложность принятия решений O(N)).
Архитектурное смягчение через CORPGEN: Фреймворк CORPGEN решает эти проблемы с помощью четырех основных механизмов: иерархическое планирование для согласованности целей, изоляция под-агентов для предотвращения загрязнения памяти, многоуровневая память (рабочая, структурированная и семантическая) и адаптивное сжатие для управления лимитами токенов.
Значительный прирост производительности благодаря эмпирическому обучению: Оценка в нескольких бэкендах показала, что CORPGEN может улучшить производительность на 3,5 раза по сравнению с базовыми показателями. Исследования показали, что эмпирическое обучение — повторное использование проверенных успешных траекторий — обеспечивает наибольший прирост производительности среди всех архитектурных компонентов.

Проблемы производительности в MHTEs

Архитектура CORPGEN

(a) Иерархическое планирование

(b) Изоляция под-агентов

(c) Многоуровневая архитектура памяти

Экспериментальные результаты и обучение

Ключевые выводы

Похожие новости

Microsoft Research представляет CORPGEN для автономных AI-агентов и ещё 41 но...

ИИ-агенты для кодирования: контекст может навредить и ещё 16 новости

servicenow представляет enterpriseops-gym для оценки планирования агентов и е...

Новости ИИ: Создана ОС для ИИ-агентов с долговременной памятью и ещё 10 новости

CoMT: метод обучения AI по принципам человеческого мышления и ещё 20 новости

google ai представляет gws cli для api workspace и ещё 17 новости