LLM

SoPE: Позиционное кодирование для 3D LVLMs

Heli
Автор
Heli
Опубликовано 01.03.2026
0,0
Views 4

SoPE: Позиционное кодирование на основе сферических координат для улучшения пространственного восприятия 3D LVLMs

Для улучшения пространственного восприятия 3D больших визуально-языковых моделей (LVLMs) представлена новая методика позиционного кодирования – SoPE (Spherical Coordinate-based Positional Embedding). SoPE кодирует позицию 3D точек в сферических координатах (radius, azimuth, elevation) и использует эти координаты для повышения точности LVLMs при выполнении задач, требующих понимания пространственных отношений.

В отличие от традиционных методов, которые используют декартовы координаты, сферические координаты позволяют более естественно представлять 3D пространство, особенно когда важны углы и расстояния. SoPE добавляется к входным эмбеддингам токенов, чтобы предоставить модели информацию о позиции каждого токена в 3D пространстве.

Авторы утверждают, что SoPE улучшает производительность LVLMs в различных 3D задачах, таких как визуальный вопрос-ответ (VQA) и генерация описаний изображений. Результаты экспериментов показывают, что SoPE превосходит другие методы позиционного кодирования, особенно в сценариях, требующих точного понимания пространственных отношений.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие новости