See it, say it, sorted: упрощение рассуждений в lvlm

Визуально-обоснованное многомодальное рассуждение в больших языковых моделях (LVLMs) обычно требует трудоемкого обучения. Представлен новый итеративный, без-обучающий фреймворк под названием "See It, Say It, Sorted", призванный упростить этот процесс.

Этот фреймворк работает посредством последовательного улучшения рассуждений, не требуя обновления параметров модели. Он начинается с генерации нескольких гипотез на основе визуального входа и последующей их сортировки на основе простого критерия релевантности.

Далее, модель выбирает наиболее релевантную гипотезу и использует её для генерации ответа. Этот процесс повторяется несколько раз, где каждый последующий раунд использует предыдущий ответ в качестве контекста для генерации новых гипотез. Такой итеративный подход позволяет модели постепенно уточнять свои рассуждения и повышать точность ответов.

Авторы демонстрируют эффективность "See It, Say It, Sorted" на различных бенчмарках визуально-обоснованного многомодального рассуждения, таких как VQA, OK-VQA и GQA. Результаты показывают, что фреймворк достигает конкурентоспособной производительности по сравнению с существующими методами, при этом избегая затрат на обучение.

Доступна версия статьи в формате PDF.

See it, say it, sorted: упрощение рассуждений в lvlm

Похожие статьи

radar: рассуждение как дискриминация для llm

Улучшение многоязычных представлений посредством выравнивания

Механистическое отслеживание данных: поиск истоков работы нейросетей

Swe-protégé: обучение маленьких llm с помощью эксперта

Что такое параметры в машинном обучении?

superglasses: оценка llm для умных очков