SoPE: Позиционное кодирование для 3D LVLMs
SoPE: Позиционное кодирование на основе сферических координат для улучшения пространственного восприятия 3D LVLMs
Для улучшения пространственного восприятия 3D больших визуально-языковых моделей (LVLMs) представлена новая методика позиционного кодирования – SoPE (Spherical Coordinate-based Positional Embedding). SoPE кодирует позицию 3D точек в сферических координатах (radius, azimuth, elevation) и использует эти координаты для повышения точности LVLMs при выполнении задач, требующих понимания пространственных отношений.
В отличие от традиционных методов, которые используют декартовы координаты, сферические координаты позволяют более естественно представлять 3D пространство, особенно когда важны углы и расстояния. SoPE добавляется к входным эмбеддингам токенов, чтобы предоставить модели информацию о позиции каждого токена в 3D пространстве.
Авторы утверждают, что SoPE улучшает производительность LVLMs в различных 3D задачах, таких как визуальный вопрос-ответ (VQA) и генерация описаний изображений. Результаты экспериментов показывают, что SoPE превосходит другие методы позиционного кодирования, особенно в сценариях, требующих точного понимания пространственных отношений.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru