DeepSeek-OCR 2: новый подход к распознаванию текста в документах
DeepSeek AI выпустила DeepSeek-OCR 2 – систему для оптического распознавания символов (OCR) и анализа документов с открытым исходным кодом. Ключевое отличие новой версии – реструктуризация визуального энкодера, который теперь обрабатывает страницы в порядке, более близком к тому, как это делает человек при сканировании сложных документов.
В основе системы лежит DeepEncoder V2 – трансформер, работающий как языковая модель и преобразующий двухмерную страницу в последовательность визуальных токенов, упорядоченных по принципу чтения. Это позволяет улучшить понимание структуры документа, особенно при наличии многоколоночного текста, таблиц и смешанных языков.
DeepSeek-OCR 2 использует глобальный и локальный подход к обработке страниц, что позволяет эффективно работать с документами разной плотности. Общее количество токенов на страницу варьируется от 256 до 1120.
Результаты тестирования на OmniDocBench-v1.5 показали улучшение общей оценки до 91.09 по сравнению с 87.36 у предыдущей версии DeepSeek-OCR. Также снизилась погрешность при распознавании порядка чтения и отдельных элементов документа.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru