ProactiveMobile: Новый бенчмарк для проактивного интеллекта в LLM

Мультимодальные большие языковые модели (MLLM) значительно продвинулись в разработке мобильных агентов, однако их возможности в основном ограничиваются реактивным подходом, когда они лишь выполняют явные команды пользователя. Новая парадигма – проактивный интеллект, где агенты самостоятельно предвидят потребности и инициируют действия, – представляет собой следующий рубеж для мобильных агентов.

Проблемы развития проактивного интеллекта

Развитие проактивного интеллекта сдерживается отсутствием бенчмарков, способных учитывать сложность реального мира и обеспечивать объективную, воспроизводимую оценку. Для решения этих проблем представлен ProactiveMobile – комплексный бенчмарк, разработанный для систематического продвижения исследований в этой области.

ProactiveMobile определяет проактивную задачу как выявление скрытых намерений пользователя на основе четырех измерений контекстных сигналов на устройстве и генерацию последовательности исполняемых функций из обширного пула из 63 API. Бенчмарк содержит более 3660 примеров из 14 сценариев, отражающих сложность реального мира за счет аннотаций с множественными вариантами ответов.

Обеспечение качества бенчмарка

Для обеспечения качества команда из 30 экспертов провела финальную проверку бенчмарка, удостоверившись в фактической точности, логической согласованности и осуществимости действий, а также исправив все несоответствующие записи.

Результаты экспериментов

Обширные эксперименты показали, что Qwen2.5-VL-7B-Instruct, подвергнутый тонкой настройке, достиг частоты успешного выполнения 19.15%, превзойдя o1 (15.71%) и GPT-5 (7.39%). Этот результат указывает на то, что проактивность – важный навык, которого не хватает большинству современных MLLM, но его можно развить. Это подчеркивает важность предложенного бенчмарка для оценки проактивности.

Проблемы развития проактивного интеллекта

Обеспечение качества бенчмарка

Результаты экспериментов

Похожие новости

Будущее искусственного интеллекта и науки и ещё 12 новости

Пятиуровневая структура безопасности для автономных агентов llm и ещё 17 новости

Саморазвивающаяся система навыков на основе openspace и ещё 16 новости

context hub: новый инструмент для кодирующих агентов от эндрю нга и ещё 12 но...

Контекстное проектирование LLM: Когда 'помощь' вредит

Безопасные конвейеры llm с outlines и pydantic и ещё 15 новости