See it, say it, sorted: упрощение рассуждений в lvlm
Визуально-обоснованное многомодальное рассуждение в больших языковых моделях (LVLMs) обычно требует трудоемкого обучения. Представлен новый итеративный, без-обучающий фреймворк под названием "See It, Say It, Sorted", призванный упростить этот процесс.
Этот фреймворк работает посредством последовательного улучшения рассуждений, не требуя обновления параметров модели. Он начинается с генерации нескольких гипотез на основе визуального входа и последующей их сортировки на основе простого критерия релевантности.
Далее, модель выбирает наиболее релевантную гипотезу и использует её для генерации ответа. Этот процесс повторяется несколько раз, где каждый последующий раунд использует предыдущий ответ в качестве контекста для генерации новых гипотез. Такой итеративный подход позволяет модели постепенно уточнять свои рассуждения и повышать точность ответов.
Авторы демонстрируют эффективность "See It, Say It, Sorted" на различных бенчмарках визуально-обоснованного многомодального рассуждения, таких как VQA, OK-VQA и GQA. Результаты показывают, что фреймворк достигает конкурентоспособной производительности по сравнению с существующими методами, при этом избегая затрат на обучение.
Доступна версия статьи в формате PDF.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru