PixelRAG веб-скрейпинг переходит на «зрение» конец эпохи парсинга HTML

Традиционный парсинг HTML-кода, годами служивший основой для сбора данных, официально уходит в прошлое. Вышел PixelRAG — революционный опенсорсный фреймворк под лицензией Apache-2.0, который анализирует веб-страницы не через текстовый код, а через визуальные скриншоты.

Это фундаментальный сдвиг в технологии RAG (Retrieval-Augmented Generation), который позволяет ИИ «видеть» интернет так же, как его видит человек.

Почему традиционный парсинг HTML больше не работает

Проблема классических методов извлечения данных заключается в «информационном шуме» и потере структуры. При конвертации сложного HTML-кода в чистый текст для нейросети теряется до 40% критически важных данных:

Таблицы: связи между ячейками разрываются.
Графики и диаграммы: текстовые парсеры просто игнорируют их или превращают в бесполезный набор цифр.
Сложная верстка: модальные окна, боковые панели и многократные вложения запутывают модель.

PixelRAG решает эту проблему, полностью игнорируя DOM-дерево (код страницы). Он делает скриншот и работает с пикселями, сохраняя оригинальный контекст и расположение элементов.

Как устроена технология PixelRAG

Фреймворк использует гибридный подход, сочетающий компьютерное зрение и современные векторные базы данных:

Рендеринг в тайлы: Любой контент (сайт, PDF-файл или фото) разбивается на набор мелких визуальных фрагментов — «тайлов».
Зрительные эмбеддинги: Для анализа используется мультимодальная модель Qwen-VL, специально дообученная на огромном массиве скриншотов веб-страниц. Она превращает визуальные образы в компактные математические векторы.
Поиск через FAISS: Векторный индекс на базе библиотеки FAISS позволяет мгновенно находить нужные фрагменты информации.

Главная фишка: «Вечный индекс»

В отличие от стандартных решений, индекс PixelRAG хранит ссылки на исходные пиксели. Это означает, что если завтра выйдет более мощная нейросеть (например, Qwen-VL-3), вам не нужно переиндексировать терабайты данных. Достаточно просто обновить модель «сверху», и качество поиска вырастет автоматически.

Визуализация всей Википедии: тесты и результаты

Чтобы доказать эффективность метода, разработчики PixelRAG провели амбициозный эксперимент: они визуализировали всю Википедию (более 30 миллионов скриншотов).

Результаты тестов: - В точности текстовых ответов «зрячая» система PixelRAG обошла лучшие текстовые RAG-решения на 18,1%. - Фреймворк успешно справился с запросами по сложным инфографикам и картам, где текстовые модели (ChatGPT-4o, Claude 3.5 Sonnet) без визуального контекста терпели неудачу.

Интеграция с Claude Code и Claude Fable-5

Приятным бонусом для разработчиков стал официальный плагин для Claude Code.

Теперь ИИ-агент может изучать документацию библиотек или проводить исследования конкурентов, просто «глядя» на их сайты через PixelRAG. Ему больше не нужно продираться сквозь дебри хаотичного DOM-дерева со скрытыми тегами и скриптами — он получает чистый визуальный лог страницы.

Особенно эффективно PixelRAG работает в связке с новой моделью Claude Fable-5 (Mythos), анонсированной на этой неделе, за счет её улучшенных способностей к визуальному рассуждению.

Преимущества для бизнеса и разработчиков

Устойчивость к изменениям: Сайты часто меняют названия классов в HTML, что ломает старые скрейперы. PixelRAG всё равно, как называется кнопка в коде, если визуально она осталась на прежнем месте.
Работа с «тяжелым» контентом: Эффективный поиск по PDF со сложными схемами, сканам документов и презентациям.
Open Source: Полная свобода использования и модификации благодаря лицензии Apache-2.0.

Где найти проект

Проект доступен в открытом доступе и уже набирает популярность в среде AI-инженеров.

GitHub

Почему традиционный парсинг HTML больше не работает

Как устроена технология PixelRAG

Главная фишка: «Вечный индекс»

Визуализация всей Википедии: тесты и результаты

Интеграция с Claude Code и Claude Fable-5

Преимущества для бизнеса и разработчиков

Где найти проект

Похожие новости

Microsoft Research представляет CORPGEN для автономных AI-агентов и ещё 41 но...

CoMT: метод обучения AI по принципам человеческого мышления и ещё 20 новости

servicenow представляет enterpriseops-gym для оценки планирования агентов и е...

LEMUR: AI-фреймворк для поиска документов в 10 раз быстрее и ещё 10 новости

OpenAI расширяет присутствие в Индии и ещё 12 новости

Hugging Face Spaces: бесплатный хостинг портфолио для AI-проектов и ещё 7 нов...