LLM

See it, say it, sorted: упрощение рассуждений в lvlm

Heli
Автор
Heli
Опубликовано 01.03.2026
0,0
Views 3

Визуально-обоснованное многомодальное рассуждение в больших языковых моделях (LVLMs) обычно требует трудоемкого обучения. Представлен новый итеративный, без-обучающий фреймворк под названием "See It, Say It, Sorted", призванный упростить этот процесс.

Этот фреймворк работает посредством последовательного улучшения рассуждений, не требуя обновления параметров модели. Он начинается с генерации нескольких гипотез на основе визуального входа и последующей их сортировки на основе простого критерия релевантности.

Далее, модель выбирает наиболее релевантную гипотезу и использует её для генерации ответа. Этот процесс повторяется несколько раз, где каждый последующий раунд использует предыдущий ответ в качестве контекста для генерации новых гипотез. Такой итеративный подход позволяет модели постепенно уточнять свои рассуждения и повышать точность ответов.

Авторы демонстрируют эффективность "See It, Say It, Sorted" на различных бенчмарках визуально-обоснованного многомодального рассуждения, таких как VQA, OK-VQA и GQA. Результаты показывают, что фреймворк достигает конкурентоспособной производительности по сравнению с существующими методами, при этом избегая затрат на обучение.

Доступна версия статьи в формате PDF.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие статьи