DeepSeek-OCR 2: новый подход к распознаванию текста в документах

Автор

Heli

Опубликовано 30.01.2026

0,0

DeepSeek AI выпустила DeepSeek-OCR 2 – систему для оптического распознавания символов (OCR) и анализа документов с открытым исходным кодом. Ключевое отличие новой версии – реструктуризация визуального энкодера, который теперь обрабатывает страницы в порядке, более близком к тому, как это делает человек при сканировании сложных документов.

В основе системы лежит DeepEncoder V2 – трансформер, работающий как языковая модель и преобразующий двухмерную страницу в последовательность визуальных токенов, упорядоченных по принципу чтения. Это позволяет улучшить понимание структуры документа, особенно при наличии многоколоночного текста, таблиц и смешанных языков.

DeepSeek-OCR 2 использует глобальный и локальный подход к обработке страниц, что позволяет эффективно работать с документами разной плотности. Общее количество токенов на страницу варьируется от 256 до 1120.

Результаты тестирования на OmniDocBench-v1.5 показали улучшение общей оценки до 91.09 по сравнению с 87.36 у предыдущей версии DeepSeek-OCR. Также снизилась погрешность при распознавании порядка чтения и отдельных элементов документа.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Похожие новости