PixelRAG веб-скрейпинг переходит на «зрение» конец эпохи парсинга HTML
Традиционный парсинг HTML-кода, годами служивший основой для сбора данных, официально уходит в прошлое. Вышел PixelRAG — революционный опенсорсный фреймворк под лицензией Apache-2.0, который анализирует веб-страницы не через текстовый код, а через визуальные скриншоты.
Это фундаментальный сдвиг в технологии RAG (Retrieval-Augmented Generation), который позволяет ИИ «видеть» интернет так же, как его видит человек.
Почему традиционный парсинг HTML больше не работает
Проблема классических методов извлечения данных заключается в «информационном шуме» и потере структуры. При конвертации сложного HTML-кода в чистый текст для нейросети теряется до 40% критически важных данных:
- Таблицы: связи между ячейками разрываются.
- Графики и диаграммы: текстовые парсеры просто игнорируют их или превращают в бесполезный набор цифр.
- Сложная верстка: модальные окна, боковые панели и многократные вложения запутывают модель.
PixelRAG решает эту проблему, полностью игнорируя DOM-дерево (код страницы). Он делает скриншот и работает с пикселями, сохраняя оригинальный контекст и расположение элементов.
Как устроена технология PixelRAG
Фреймворк использует гибридный подход, сочетающий компьютерное зрение и современные векторные базы данных:
- Рендеринг в тайлы: Любой контент (сайт, PDF-файл или фото) разбивается на набор мелких визуальных фрагментов — «тайлов».
- Зрительные эмбеддинги: Для анализа используется мультимодальная модель Qwen-VL, специально дообученная на огромном массиве скриншотов веб-страниц. Она превращает визуальные образы в компактные математические векторы.
- Поиск через FAISS: Векторный индекс на базе библиотеки FAISS позволяет мгновенно находить нужные фрагменты информации.
Главная фишка: «Вечный индекс»
В отличие от стандартных решений, индекс PixelRAG хранит ссылки на исходные пиксели. Это означает, что если завтра выйдет более мощная нейросеть (например, Qwen-VL-3), вам не нужно переиндексировать терабайты данных. Достаточно просто обновить модель «сверху», и качество поиска вырастет автоматически.
Визуализация всей Википедии: тесты и результаты
Чтобы доказать эффективность метода, разработчики PixelRAG провели амбициозный эксперимент: они визуализировали всю Википедию (более 30 миллионов скриншотов).
Результаты тестов: - В точности текстовых ответов «зрячая» система PixelRAG обошла лучшие текстовые RAG-решения на 18,1%. - Фреймворк успешно справился с запросами по сложным инфографикам и картам, где текстовые модели (ChatGPT-4o, Claude 3.5 Sonnet) без визуального контекста терпели неудачу.
Интеграция с Claude Code и Claude Fable-5
Приятным бонусом для разработчиков стал официальный плагин для Claude Code.
Теперь ИИ-агент может изучать документацию библиотек или проводить исследования конкурентов, просто «глядя» на их сайты через PixelRAG. Ему больше не нужно продираться сквозь дебри хаотичного DOM-дерева со скрытыми тегами и скриптами — он получает чистый визуальный лог страницы.
Особенно эффективно PixelRAG работает в связке с новой моделью Claude Fable-5 (Mythos), анонсированной на этой неделе, за счет её улучшенных способностей к визуальному рассуждению.
Преимущества для бизнеса и разработчиков
- Устойчивость к изменениям: Сайты часто меняют названия классов в HTML, что ломает старые скрейперы. PixelRAG всё равно, как называется кнопка в коде, если визуально она осталась на прежнем месте.
- Работа с «тяжелым» контентом: Эффективный поиск по PDF со сложными схемами, сканам документов и презентациям.
- Open Source: Полная свобода использования и модификации благодаря лицензии Apache-2.0.
Где найти проект
Проект доступен в открытом доступе и уже набирает популярность в среде AI-инженеров.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru