PanoEnv: Новый Бенчмарк Для 3D-Понимания В VLMs
Панорамные изображения все чаще используются в виртуальной реальности, автономном вождении и робототехнике для всестороннего понимания сцены. Однако существующие мультимодальные модели, сочетающие возможности зрения и обработки естественного языка (Vision-Language Models, VLMs), испытывают трудности с 3D пространственным рассуждением на изображениях, представленных в равноугольной цилиндрической проекции (Equirectangular Projection, ERP). Это связано с геометрическими искажениями и недостатком 3D-контроля.
PanoEnv: новый бенчмарк для оценки 3D-понимания
Для решения этой проблемы представлен PanoEnv – масштабный бенчмарк для задачи визуального вопросно-ответного анализа (VQA), созданный на основе синтетических 3D-окружений. Он содержит 14 800 вопросов по пяти категориям, включая определение относительного положения объектов и сравнение их объемов. Бенчмарк опирается на точные 3D-аннотации, такие как карты глубины, сегментация и ограничивающие прямоугольники.
Тестирование 14 современных VLMs показало ограниченное 3D-понимание: общая точность составила лишь 49,34%, а для открытых вопросов (open-ended) – всего 8,36%.
Улучшение 3D-рассуждений с помощью обучения с подкреплением
Для улучшения 3D-рассуждений предложен фреймворк постобучения на основе обучения с подкреплением (Reinforcement Learning, RL) и алгоритма Group Relative Policy Optimization (GRPO). В основе фреймворка лежит награда, основанная на реальных данных и включающая пять стратегий, учитывающих геометрию сцены, например, допустимую погрешность расстояния и пространственную согласованность.
Для смягчения катастрофического забывания используется двухэтапный учебный план. На первом этапе модель обучается на структурированных задачах (определение истинности утверждения и выбор одного варианта из нескольких). На втором этапе происходит дообучение на смешанных данных, включающих открытые вопросы, для улучшения обобщающей способности модели.
Результаты и выводы
7-миллиардная модель, обученная с использованием предложенного фреймворка и учебного плана, показала результаты, превосходящие текущие достижения: общая точность увеличилась до 52,93% (+3,59%), а точность для открытых вопросов – до 14,83%. При этом производительность на структурированных задачах сохранилась на прежнем уровне. Модель также показала высокие оценки семантического анализа (Q-Score 6,24, P-Score 5,95), превзойдя результаты 32-миллиардных моделей.
Эти результаты демонстрируют эффективность PanoEnv-QA и разработанного на основе RL фреймворка для наделения VLMs пространственным интеллектом в 3D для всенаправленного восприятия.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru