Новости ИИ

DocDjinn: Синтетическая генерация документов с помощью VLMs

Heli
Автор
Heli
Опубликовано 27.02.2026
0,0
Views 80

Эффективные модели для интеллектуальной обработки документов требуют большого количества размеченных данных для обучения. Однако получение достаточного объема качественных данных сопряжено со значительными трудностями из-за трудоемкости и стоимости процесса сбора. Кроме того, использование языковых моделей для разметки реальных документов вызывает опасения по поводу конфиденциальности данных. Синтетическая генерация документов является перспективной альтернативой, обеспечивающей сохранность персональных данных.

Новый подход к генерации документов

Мы представляем DocDjinn – новый фреймворк для контролируемой синтетической генерации документов, использующий Визуально-Языковые Модели (VLMs). Он позволяет создавать размеченные документы на основе неразмеченных исходных образцов. Наш подход генерирует визуально правдоподобные и семантически согласованные синтетические документы, соответствующие распределению существующего исходного набора данных благодаря кластеризации и параметризованному выбору исходных образцов.

Реалистичность и разнообразие

Для обогащения документов мы используем реалистичную диффузионную модель для генерации рукописного текста и контекстуальных визуальных элементов через семантическое и визуальное разделение. Это позволяет нам создавать разнообразные, высококачественные синтетические документы с разметкой.

Оценка эффективности

Мы провели оценку на одиннадцати эталонных тестах, охватывающих ключевые задачи, такие как извлечение информации, ответы на вопросы, классификация документов и анализ их макета. Насколько нам известно, это первая работа, демонстрирующая возможность использования VLMs для генерации достоверных размеченных наборов данных документов в большом масштабе из неразмеченных исходных образцов. Эти данные способны эффективно обогащать или аппроксимировать реальные, размеченные вручную данные для решения различных задач по пониманию документов.

Результаты и доступность

Наши эксперименты показали, что, используя всего 100 реальных образцов для обучения, наш фреймворк в среднем достигает 87% производительности, наблюдаемой при использовании полного реального набора данных. Мы также сделали наш код и более 140 000 синтетических документов общедоступными.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие новости