RobustVisRAG: Улучшение устойчивости VisRAG к искажениям

Системы генерации ответов на основе извлечения информации и анализа изображений (VisRAG) используют модели, объединяющие зрение и язык, для одновременного поиска релевантных визуальных документов и генерации обоснованных ответов на основе мультимодальных данных. Однако существующие модели VisRAG демонстрируют снижение производительности при искажениях визуальных данных, таких как размытие, шум, плохая освещенность или тени. Это происходит из-за того, что семантические факторы и факторы искажения переплетаются в предобученных визуальных энкодерах, что приводит к ошибкам на этапах поиска и генерации.

Улучшение устойчивости VisRAG с помощью RobustVisRAG

Для решения этой проблемы представлена RobustVisRAG – фреймворк, основанный на принципе причинно-следственных связей и использующий двойной путь, который повышает устойчивость VisRAG, сохраняя при этом эффективность и способность к обобщению в условиях отсутствия предварительного обучения. RobustVisRAG использует некорреляционный путь для захвата сигналов искажений посредством однонаправленного внимания и причинно-следственный путь для изучения очищенной семантики, ориентируясь на эти сигналы.

Вместе с предложенными задачами моделирования некорреляционных искажений и выравнивания причинно-следственной семантики, фреймворк обеспечивает четкое разделение между семантикой и искажениями, что позволяет стабильно осуществлять поиск и генерацию ответов в сложных условиях.

Датасет Distortion-VisRAG для оценки устойчивости

Для оценки устойчивости в реалистичных условиях представлен датасет Distortion-VisRAG – крупномасштабный эталон, содержащий как синтетические, так и реальные искаженные документы из семи доменов. Он включает 12 типов синтетических и 5 типов реальных искажений, которые всесторонне отражают практические визуальные искажения.

Результаты экспериментов показывают, что RobustVisRAG улучшает точность поиска, генерации и сквозную производительность на 7,35%, 6,35% и 12,40% соответственно при использовании реальных искажений, сохраняя при этом сопоставимую точность на чистых входных данных.

Улучшение устойчивости VisRAG с помощью RobustVisRAG

Датасет Distortion-VisRAG для оценки устойчивости

Похожие новости

Perplexity Выпустила Pplx-embed: Модели Для RAG

RAG против промптов: выбор релевантной информации

pymatgen: анализ и моделирование кристаллических структур