Новости ИИ

PixelRAG веб-скрейпинг переходит на «зрение» конец эпохи парсинга HTML

Heli
Автор
Heli
Опубликовано 22.06.2026
0,0
Views 7

Традиционный парсинг HTML-кода, годами служивший основой для сбора данных, официально уходит в прошлое. Вышел PixelRAG — революционный опенсорсный фреймворк под лицензией Apache-2.0, который анализирует веб-страницы не через текстовый код, а через визуальные скриншоты.

Это фундаментальный сдвиг в технологии RAG (Retrieval-Augmented Generation), который позволяет ИИ «видеть» интернет так же, как его видит человек.


Почему традиционный парсинг HTML больше не работает

Проблема классических методов извлечения данных заключается в «информационном шуме» и потере структуры. При конвертации сложного HTML-кода в чистый текст для нейросети теряется до 40% критически важных данных:

  • Таблицы: связи между ячейками разрываются.
  • Графики и диаграммы: текстовые парсеры просто игнорируют их или превращают в бесполезный набор цифр.
  • Сложная верстка: модальные окна, боковые панели и многократные вложения запутывают модель.

PixelRAG решает эту проблему, полностью игнорируя DOM-дерево (код страницы). Он делает скриншот и работает с пикселями, сохраняя оригинальный контекст и расположение элементов.


Как устроена технология PixelRAG

Фреймворк использует гибридный подход, сочетающий компьютерное зрение и современные векторные базы данных:

  1. Рендеринг в тайлы: Любой контент (сайт, PDF-файл или фото) разбивается на набор мелких визуальных фрагментов — «тайлов».
  2. Зрительные эмбеддинги: Для анализа используется мультимодальная модель Qwen-VL, специально дообученная на огромном массиве скриншотов веб-страниц. Она превращает визуальные образы в компактные математические векторы.
  3. Поиск через FAISS: Векторный индекс на базе библиотеки FAISS позволяет мгновенно находить нужные фрагменты информации.

Главная фишка: «Вечный индекс»

В отличие от стандартных решений, индекс PixelRAG хранит ссылки на исходные пиксели. Это означает, что если завтра выйдет более мощная нейросеть (например, Qwen-VL-3), вам не нужно переиндексировать терабайты данных. Достаточно просто обновить модель «сверху», и качество поиска вырастет автоматически.


Визуализация всей Википедии: тесты и результаты

Чтобы доказать эффективность метода, разработчики PixelRAG провели амбициозный эксперимент: они визуализировали всю Википедию (более 30 миллионов скриншотов).

Результаты тестов: - В точности текстовых ответов «зрячая» система PixelRAG обошла лучшие текстовые RAG-решения на 18,1%. - Фреймворк успешно справился с запросами по сложным инфографикам и картам, где текстовые модели (ChatGPT-4o, Claude 3.5 Sonnet) без визуального контекста терпели неудачу.


Интеграция с Claude Code и Claude Fable-5

Приятным бонусом для разработчиков стал официальный плагин для Claude Code.

Теперь ИИ-агент может изучать документацию библиотек или проводить исследования конкурентов, просто «глядя» на их сайты через PixelRAG. Ему больше не нужно продираться сквозь дебри хаотичного DOM-дерева со скрытыми тегами и скриптами — он получает чистый визуальный лог страницы.

Особенно эффективно PixelRAG работает в связке с новой моделью Claude Fable-5 (Mythos), анонсированной на этой неделе, за счет её улучшенных способностей к визуальному рассуждению.


Преимущества для бизнеса и разработчиков

  • Устойчивость к изменениям: Сайты часто меняют названия классов в HTML, что ломает старые скрейперы. PixelRAG всё равно, как называется кнопка в коде, если визуально она осталась на прежнем месте.
  • Работа с «тяжелым» контентом: Эффективный поиск по PDF со сложными схемами, сканам документов и презентациям.
  • Open Source: Полная свобода использования и модификации благодаря лицензии Apache-2.0.

Где найти проект

Проект доступен в открытом доступе и уже набирает популярность в среде AI-инженеров.

GitHub

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие новости