PanoEnv: Новый Бенчмарк Для 3D-Понимания В VLMs

Панорамные изображения все чаще используются в виртуальной реальности, автономном вождении и робототехнике для всестороннего понимания сцены. Однако существующие мультимодальные модели, сочетающие возможности зрения и обработки естественного языка (Vision-Language Models, VLMs), испытывают трудности с 3D пространственным рассуждением на изображениях, представленных в равноугольной цилиндрической проекции (Equirectangular Projection, ERP). Это связано с геометрическими искажениями и недостатком 3D-контроля.

PanoEnv: новый бенчмарк для оценки 3D-понимания

Для решения этой проблемы представлен PanoEnv – масштабный бенчмарк для задачи визуального вопросно-ответного анализа (VQA), созданный на основе синтетических 3D-окружений. Он содержит 14 800 вопросов по пяти категориям, включая определение относительного положения объектов и сравнение их объемов. Бенчмарк опирается на точные 3D-аннотации, такие как карты глубины, сегментация и ограничивающие прямоугольники.

Тестирование 14 современных VLMs показало ограниченное 3D-понимание: общая точность составила лишь 49,34%, а для открытых вопросов (open-ended) – всего 8,36%.

Улучшение 3D-рассуждений с помощью обучения с подкреплением

Для улучшения 3D-рассуждений предложен фреймворк постобучения на основе обучения с подкреплением (Reinforcement Learning, RL) и алгоритма Group Relative Policy Optimization (GRPO). В основе фреймворка лежит награда, основанная на реальных данных и включающая пять стратегий, учитывающих геометрию сцены, например, допустимую погрешность расстояния и пространственную согласованность.

Для смягчения катастрофического забывания используется двухэтапный учебный план. На первом этапе модель обучается на структурированных задачах (определение истинности утверждения и выбор одного варианта из нескольких). На втором этапе происходит дообучение на смешанных данных, включающих открытые вопросы, для улучшения обобщающей способности модели.

Результаты и выводы

7-миллиардная модель, обученная с использованием предложенного фреймворка и учебного плана, показала результаты, превосходящие текущие достижения: общая точность увеличилась до 52,93% (+3,59%), а точность для открытых вопросов – до 14,83%. При этом производительность на структурированных задачах сохранилась на прежнем уровне. Модель также показала высокие оценки семантического анализа (Q-Score 6,24, P-Score 5,95), превзойдя результаты 32-миллиардных моделей.

Эти результаты демонстрируют эффективность PanoEnv-QA и разработанного на основе RL фреймворка для наделения VLMs пространственным интеллектом в 3D для всенаправленного восприятия.

PanoEnv: новый бенчмарк для оценки 3D-понимания

Улучшение 3D-рассуждений с помощью обучения с подкреплением

Результаты и выводы

Похожие новости

Microsoft Research представляет CORPGEN для автономных AI-агентов и ещё 41 но...

google ai представляет gws cli для api workspace и ещё 17 новости

CoMT: метод обучения AI по принципам человеческого мышления и ещё 20 новости

Развёртывание VLM на NVIDIA Jetson: новые возможности и ещё 13 новости

servicenow представляет enterpriseops-gym для оценки планирования агентов и е...

Hugging Face Spaces: бесплатный хостинг портфолио для AI-проектов и ещё 7 нов...