DocDjinn: Синтетическая генерация документов с помощью VLMs

Эффективные модели для интеллектуальной обработки документов требуют большого количества размеченных данных для обучения. Однако получение достаточного объема качественных данных сопряжено со значительными трудностями из-за трудоемкости и стоимости процесса сбора. Кроме того, использование языковых моделей для разметки реальных документов вызывает опасения по поводу конфиденциальности данных. Синтетическая генерация документов является перспективной альтернативой, обеспечивающей сохранность персональных данных.

Новый подход к генерации документов

Мы представляем DocDjinn – новый фреймворк для контролируемой синтетической генерации документов, использующий Визуально-Языковые Модели (VLMs). Он позволяет создавать размеченные документы на основе неразмеченных исходных образцов. Наш подход генерирует визуально правдоподобные и семантически согласованные синтетические документы, соответствующие распределению существующего исходного набора данных благодаря кластеризации и параметризованному выбору исходных образцов.

Реалистичность и разнообразие

Для обогащения документов мы используем реалистичную диффузионную модель для генерации рукописного текста и контекстуальных визуальных элементов через семантическое и визуальное разделение. Это позволяет нам создавать разнообразные, высококачественные синтетические документы с разметкой.

Оценка эффективности

Мы провели оценку на одиннадцати эталонных тестах, охватывающих ключевые задачи, такие как извлечение информации, ответы на вопросы, классификация документов и анализ их макета. Насколько нам известно, это первая работа, демонстрирующая возможность использования VLMs для генерации достоверных размеченных наборов данных документов в большом масштабе из неразмеченных исходных образцов. Эти данные способны эффективно обогащать или аппроксимировать реальные, размеченные вручную данные для решения различных задач по пониманию документов.

Результаты и доступность

Наши эксперименты показали, что, используя всего 100 реальных образцов для обучения, наш фреймворк в среднем достигает 87% производительности, наблюдаемой при использовании полного реального набора данных. Мы также сделали наш код и более 140 000 синтетических документов общедоступными.

Новый подход к генерации документов

Реалистичность и разнообразие

Оценка эффективности

Результаты и доступность

Похожие новости

Microsoft Research представляет CORPGEN для автономных AI-агентов и ещё 41 но...

CoMT: метод обучения AI по принципам человеческого мышления и ещё 20 новости

ИИ-агенты для кодирования: контекст может навредить и ещё 16 новости

google ai представляет gws cli для api workspace и ещё 17 новости

LEMUR: AI-фреймворк для поиска документов в 10 раз быстрее и ещё 10 новости

servicenow представляет enterpriseops-gym для оценки планирования агентов и е...