SoPE: Позиционное кодирование для 3D LVLMs

SoPE: Позиционное кодирование на основе сферических координат для улучшения пространственного восприятия 3D LVLMs

Для улучшения пространственного восприятия 3D больших визуально-языковых моделей (LVLMs) представлена новая методика позиционного кодирования – SoPE (Spherical Coordinate-based Positional Embedding). SoPE кодирует позицию 3D точек в сферических координатах (radius, azimuth, elevation) и использует эти координаты для повышения точности LVLMs при выполнении задач, требующих понимания пространственных отношений.

В отличие от традиционных методов, которые используют декартовы координаты, сферические координаты позволяют более естественно представлять 3D пространство, особенно когда важны углы и расстояния. SoPE добавляется к входным эмбеддингам токенов, чтобы предоставить модели информацию о позиции каждого токена в 3D пространстве.

Авторы утверждают, что SoPE улучшает производительность LVLMs в различных 3D задачах, таких как визуальный вопрос-ответ (VQA) и генерация описаний изображений. Результаты экспериментов показывают, что SoPE превосходит другие методы позиционного кодирования, особенно в сценариях, требующих точного понимания пространственных отношений.

Похожие новости

Новый метод ускоряет обучение больших языковых моделей

Иерархический планировщик на основе открытых llm

Ученые выявили скрытые черты больших языковых моделей

FlowPrefill: Оптимизация больших языковых моделей

clindet-bench: оценка суждений больших языковых моделей

применение больших языковых моделей в оценке жизненного цикла