RAG

RobustVisRAG: Улучшение устойчивости VisRAG к искажениям

Heli
Автор
Heli
Опубликовано 27.02.2026
0,0
Views 2

Системы генерации ответов на основе извлечения информации и анализа изображений (VisRAG) используют модели, объединяющие зрение и язык, для одновременного поиска релевантных визуальных документов и генерации обоснованных ответов на основе мультимодальных данных. Однако существующие модели VisRAG демонстрируют снижение производительности при искажениях визуальных данных, таких как размытие, шум, плохая освещенность или тени. Это происходит из-за того, что семантические факторы и факторы искажения переплетаются в предобученных визуальных энкодерах, что приводит к ошибкам на этапах поиска и генерации.

Улучшение устойчивости VisRAG с помощью RobustVisRAG

Для решения этой проблемы представлена RobustVisRAG – фреймворк, основанный на принципе причинно-следственных связей и использующий двойной путь, который повышает устойчивость VisRAG, сохраняя при этом эффективность и способность к обобщению в условиях отсутствия предварительного обучения. RobustVisRAG использует некорреляционный путь для захвата сигналов искажений посредством однонаправленного внимания и причинно-следственный путь для изучения очищенной семантики, ориентируясь на эти сигналы.

Вместе с предложенными задачами моделирования некорреляционных искажений и выравнивания причинно-следственной семантики, фреймворк обеспечивает четкое разделение между семантикой и искажениями, что позволяет стабильно осуществлять поиск и генерацию ответов в сложных условиях.

Датасет Distortion-VisRAG для оценки устойчивости

Для оценки устойчивости в реалистичных условиях представлен датасет Distortion-VisRAG – крупномасштабный эталон, содержащий как синтетические, так и реальные искаженные документы из семи доменов. Он включает 12 типов синтетических и 5 типов реальных искажений, которые всесторонне отражают практические визуальные искажения.

Результаты экспериментов показывают, что RobustVisRAG улучшает точность поиска, генерации и сквозную производительность на 7,35%, 6,35% и 12,40% соответственно при использовании реальных искажений, сохраняя при этом сопоставимую точность на чистых входных данных.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие новости