AI news

DocDjinn: Синтетическая генерация документов с помощью VLMs

Heli
Автор
Heli
Опубликовано 27.02.2026
0,0
Views 3

Эффективные модели для интеллектуальной обработки документов требуют большого количества размеченных данных для обучения. Однако получение достаточного объема качественных данных сопряжено со значительными трудностями из-за трудоемкости и стоимости процесса сбора. Кроме того, использование языковых моделей для разметки реальных документов вызывает опасения по поводу конфиденциальности данных. Синтетическая генерация документов является перспективной альтернативой, обеспечивающей сохранность персональных данных.

Новый подход к генерации документов

Мы представляем DocDjinn – новый фреймворк для контролируемой синтетической генерации документов, использующий Визуально-Языковые Модели (VLMs). Он позволяет создавать размеченные документы на основе неразмеченных исходных образцов. Наш подход генерирует визуально правдоподобные и семантически согласованные синтетические документы, соответствующие распределению существующего исходного набора данных благодаря кластеризации и параметризованному выбору исходных образцов.

Реалистичность и разнообразие

Для обогащения документов мы используем реалистичную диффузионную модель для генерации рукописного текста и контекстуальных визуальных элементов через семантическое и визуальное разделение. Это позволяет нам создавать разнообразные, высококачественные синтетические документы с разметкой.

Оценка эффективности

Мы провели оценку на одиннадцати эталонных тестах, охватывающих ключевые задачи, такие как извлечение информации, ответы на вопросы, классификация документов и анализ их макета. Насколько нам известно, это первая работа, демонстрирующая возможность использования VLMs для генерации достоверных размеченных наборов данных документов в большом масштабе из неразмеченных исходных образцов. Эти данные способны эффективно обогащать или аппроксимировать реальные, размеченные вручную данные для решения различных задач по пониманию документов.

Результаты и доступность

Наши эксперименты показали, что, используя всего 100 реальных образцов для обучения, наш фреймворк в среднем достигает 87% производительности, наблюдаемой при использовании полного реального набора данных. Мы также сделали наш код и более 140 000 синтетических документов общедоступными.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие новости