Sparta: New Benchmark for Table-Text QA and Cross-Modal Reasoning

Авторы: Sungho Park, Jueun Kim, Wook-Shin Han.

Abstract

Реальные задачи ответов на вопросы, использующие как таблицы, так и текст (Table-Text QA), требуют от моделей способности рассуждать, используя длинные тексты и исходные таблицы, проходя через несколько шагов и выполняя сложные операции, такие как агрегация. Существующие бенчмарки малы, созданы вручную – и поэтому подвержены ошибкам – и содержат простые вопросы, которые редко требуют более двух шагов или использования агрегаций, группировки или других сложных аналитических операций, выражаемых в запросах на естественном языке.

Представлена SPARTA – сквозной фреймворк для автоматического создания крупномасштабных бенчмарков Table-Text QA с использованием легкой валидации человеком, требующей только четверти времени аннотации, необходимого для HybridQA. Фреймворк сначала создает эталонную базу фактов, обогащая каждую исходную таблицу таблицами с привязками, чьи кортежи являются атомарными фактами, автоматически извлеченными из сопровождающих неструктурированных текстов, а затем синтезирует вложенные запросы, число вложенных предикатов которых соответствует желаемому количеству шагов.

Для обеспечения исполнимости каждого SQL-запроса и получения естественного, человекоподобного вопроса, предложены два новых метода: уточнение на основе происхождения, которое переписывает любой синтаксически верный запрос, возвращающий непустой результат, и обеспечение реалистичной структуры, которое ограничивает генерацию пост-порядковыми обходами графа запросов. В результате создается тысячи высококачественных пар вопросов и ответов, охватывающих агрегацию, группировку и глубокое многошаговое рассуждение по тексту и таблицам.

На SPARTA современные модели, достигающие более 70 F1 на HybridQA или более 50 F1 на OTT-QA, снижают свои результаты более чем на 30 F1 баллов, выявляя фундаментальные недостатки в текущем кросс-модальном рассуждении. Бенчмарк, код и базовые модели доступны по адресу: https://github.com/pshlego/SPARTA/tree/main.

Resources

Доступны следующие ресурсы: View on Hugging Face, Read PDF, ArXiv.

Abstract

Resources

Похожие новости

Саморазвивающаяся система навыков на основе openspace и ещё 16 новости

Безопасные конвейеры llm с outlines и pydantic и ещё 15 новости

Пятиуровневая структура безопасности для автономных агентов llm и ещё 17 новости

Как обучать LLM локально через федеративное обучение с LoRA и ещё 12 новости

context hub: новый инструмент для кодирующих агентов от эндрю нга и ещё 12 но...

Ускорение обучения LLM: новый метод от MIT и NVIDIA