RobustVisRAG: Улучшение устойчивости VisRAG к искажениям
Системы генерации ответов на основе извлечения информации и анализа изображений (VisRAG) используют модели, объединяющие зрение и язык, для одновременного поиска релевантных визуальных документов и генерации обоснованных ответов на основе мультимодальных данных. Однако существующие модели VisRAG демонстрируют снижение производительности при искажениях визуальных данных, таких как размытие, шум, плохая освещенность или тени. Это происходит из-за того, что семантические факторы и факторы искажения переплетаются в предобученных визуальных энкодерах, что приводит к ошибкам на этапах поиска и генерации.
Улучшение устойчивости VisRAG с помощью RobustVisRAG
Для решения этой проблемы представлена RobustVisRAG – фреймворк, основанный на принципе причинно-следственных связей и использующий двойной путь, который повышает устойчивость VisRAG, сохраняя при этом эффективность и способность к обобщению в условиях отсутствия предварительного обучения. RobustVisRAG использует некорреляционный путь для захвата сигналов искажений посредством однонаправленного внимания и причинно-следственный путь для изучения очищенной семантики, ориентируясь на эти сигналы.
Вместе с предложенными задачами моделирования некорреляционных искажений и выравнивания причинно-следственной семантики, фреймворк обеспечивает четкое разделение между семантикой и искажениями, что позволяет стабильно осуществлять поиск и генерацию ответов в сложных условиях.
Датасет Distortion-VisRAG для оценки устойчивости
Для оценки устойчивости в реалистичных условиях представлен датасет Distortion-VisRAG – крупномасштабный эталон, содержащий как синтетические, так и реальные искаженные документы из семи доменов. Он включает 12 типов синтетических и 5 типов реальных искажений, которые всесторонне отражают практические визуальные искажения.
Результаты экспериментов показывают, что RobustVisRAG улучшает точность поиска, генерации и сквозную производительность на 7,35%, 6,35% и 12,40% соответственно при использовании реальных искажений, сохраняя при этом сопоставимую точность на чистых входных данных.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru