LLM

Sparta: New Benchmark for Table-Text QA and Cross-Modal Reasoning

Heli
Автор
Heli
Опубликовано 27.02.2026
0,0
Views 2

Авторы: Sungho Park, Jueun Kim, Wook-Shin Han.

Abstract

Реальные задачи ответов на вопросы, использующие как таблицы, так и текст (Table-Text QA), требуют от моделей способности рассуждать, используя длинные тексты и исходные таблицы, проходя через несколько шагов и выполняя сложные операции, такие как агрегация. Существующие бенчмарки малы, созданы вручную – и поэтому подвержены ошибкам – и содержат простые вопросы, которые редко требуют более двух шагов или использования агрегаций, группировки или других сложных аналитических операций, выражаемых в запросах на естественном языке.

Представлена SPARTA – сквозной фреймворк для автоматического создания крупномасштабных бенчмарков Table-Text QA с использованием легкой валидации человеком, требующей только четверти времени аннотации, необходимого для HybridQA. Фреймворк сначала создает эталонную базу фактов, обогащая каждую исходную таблицу таблицами с привязками, чьи кортежи являются атомарными фактами, автоматически извлеченными из сопровождающих неструктурированных текстов, а затем синтезирует вложенные запросы, число вложенных предикатов которых соответствует желаемому количеству шагов.

Для обеспечения исполнимости каждого SQL-запроса и получения естественного, человекоподобного вопроса, предложены два новых метода: уточнение на основе происхождения, которое переписывает любой синтаксически верный запрос, возвращающий непустой результат, и обеспечение реалистичной структуры, которое ограничивает генерацию пост-порядковыми обходами графа запросов. В результате создается тысячи высококачественных пар вопросов и ответов, охватывающих агрегацию, группировку и глубокое многошаговое рассуждение по тексту и таблицам.

На SPARTA современные модели, достигающие более 70 F1 на HybridQA или более 50 F1 на OTT-QA, снижают свои результаты более чем на 30 F1 баллов, выявляя фундаментальные недостатки в текущем кросс-модальном рассуждении. Бенчмарк, код и базовые модели доступны по адресу: https://github.com/pshlego/SPARTA/tree/main.

Resources

Доступны следующие ресурсы: View on Hugging Face, Read PDF, ArXiv.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие новости