Microsoft Webwright: минималистичный AI-агент для автоматизации браузера с SOTA

Что такое Webwright и почему это важно

Microsoft выпустил Webwright — минималистичный агент-харнес для автоматизации браузера, который радикально отличается от существующих решений. Если традиционные AI-агенты для веба (Browser Use, Skyvern, LaVague) действуют через пошаговое взаимодействие с элементами страницы, то Webwright выбрал иной путь: он генерирует код на Playwright, запускает браузер, анализирует результаты через скриншоты и итеративно улучшает решение.

Этот подход позволил добиться state-of-the-art результатов на сложных бенчмарках, используя при этом код базы всего в ~450 строк. Никаких скрытых абстракций, никаких тяжелых зависимостей — только httpx для HTTP-запросов, pydantic для валидации данных и playwright для управления браузером.

Архитектура: простота как конкурентное преимущество

Ключевое отличие Webwright — философия code-as-actions. Вместо того чтобы обучать модель нажимать кнопки и заполнять формы, агент пишет программный код, который делает это за него. Это даёт несколько критических преимуществ:

1. Воспроизводимость
Playwright-код можно запустить повторно, отладить, версионировать. Это превращает автоматизацию из "чёрного ящика" в инженерный процесс.

2. Композируемость
Сгенерированные скрипты можно встраивать в CI/CD, тестовые пайплайны, мониторинг продакшена. Webwright не просто решает задачу — он создаёт переиспользуемый артефакт.

3. Прозрачность
Вы видите, какой код выполняется. Нет скрытой логики, нет непредсказуемых побочных эффектов. Это особенно важно для корпоративных сценариев, где требуется аудит действий AI.

4. Эффективность
Минимальная кодовая база означает меньше багов, проще поддержка, быстрее onboarding. Разработчик может прочитать весь исходник за час и понять, как всё работает.

Результаты: победа минимализма над сложностью

Webwright установил новый рекорд на двух ключевых бенчмарках автоматизации веба:

Online-Mind2Web: 86.7%
Этот бенчмарк тестирует способность агента выполнять реалистичные задачи на живых сайтах: поиск товаров, бронирование, навигация по сложным интерфейсам. Webwright обошёл предыдущий SOTA на 15.6 процентных пунктов — это огромный скачок для области, где улучшения обычно измеряются долями процента.

Odysseys: 60.1%
Бенчмарк длинных мультишаговых задач, где агент должен поддерживать контекст на протяжении десятков действий. Здесь архитектура Webwright показывает свою силу: вместо накопления ошибок при цепочке кликов, агент пишет план в виде кода, который выполняется атомарно.

Эти результаты опровергают распространённое заблуждение, что для высокой точности нужны сложные многоагентные системы и специализированные модели. Оказывается, правильная архитектура важнее размера фреймворка.

Интеграция: универсальность по умолчанию

Webwright спроектирован как провайдер-агностичный инструмент. Он работает с:

OpenAI (GPT-4, GPT-4 Turbo, GPT-4o)
Anthropic (Claude 3.5 Sonnet, Claude Opus)
OpenRouter (доступ к десяткам моделей через единый API)

Это означает, что вы не привязаны к одному вендору и можете выбирать модель под конкретную задачу: Claude для сложных рассуждений, GPT-4o для скорости, локальные модели через OpenRouter для конфиденциальных данных.

Подключение к Claude Code

Особенно интересна интеграция с Claude Code — здесь Webwright работает как скилл (skill), расширяя возможности агента. Это позволяет:

Автоматизировать сбор данных с веб-источников для анализа кода
Тестировать веб-приложения в процессе разработки
Генерировать E2E-тесты на основе естественного описания сценариев
Создавать документацию через скриншоты реального поведения интерфейса

Комбинация аналитики расхода токенов (команда /usage из Claude Code) и дешёвых моделей (например, DeepSeek V4 Pro) делает такую связку экономически выгодной даже для массовой автоматизации.

Технический стек: минимум зависимостей, максимум контроля

Заглянем под капот:

# Весь стек зависимостей
httpx       # Async HTTP-клиент
pydantic    # Валидация данных
playwright  # Управление браузером

Это всё. Никаких LangChain, CrewAI, AutoGen. Никаких ORM, никаких абстракций над абстракциями. Код настолько прост, что его можно форкнуть и адаптировать под специфичные нужды за пару часов.

Playwright выбран не случайно: это индустриальный стандарт для браузерной автоматизации, который поддерживает Chromium, Firefox и WebKit. Он умеет работать с современными SPA, перехватывать сетевые запросы, эмулировать мобильные устройства. Webwright получает всю эту мощь "из коробки".

Pydantic обеспечивает типобезопасность при работе с ответами LLM — критически важно, когда модель генерирует код, который будет выполняться.

httpx даёт async-возможности для параллельной обработки задач и интеграции с современными Python-фреймворками.

Практические сценарии использования

1. Мониторинг конкурентов Ежедневный сбор цен, характеристик товаров, акций. Webwright генерирует скрипт, который можно запускать по расписанию.

2. Тестирование веб-приложений "Проверь, что форма регистрации работает в Safari" → Playwright-тест, который можно добавить в CI.

3. Миграция данных Извлечение структурированной информации из старых веб-интерфейсов, где нет API.

4. Исследовательский анализ "Найди все статьи по теме X за последний месяц и извлеки ключевые тезисы" — агент сам напишет скрейпер.

5. Регрессионное тестирование UI Сравнение скриншотов до и после деплоя, автоматическое выявление визуальных изменений.

Проект полностью открыт

Архитектура: простота как конкурентное преимущество

Результаты: победа минимализма над сложностью

Интеграция: универсальность по умолчанию

Подключение к Claude Code

Технический стек: минимум зависимостей, максимум контроля

Практические сценарии использования

Похожие новости

Microsoft Research представляет CORPGEN для автономных AI-агентов и ещё 41 но...

ИИ-агенты для кодирования: контекст может навредить и ещё 16 новости

Text-to-Lottie от Diffusion Studio - открытый навык для AI-агентов

Meta AI представляет GCM для мониторинга GPU-кластеров и ещё 10 новости

Nvidia создает открытые данные для искусственного интеллекта и ещё 9 новости

Hugging Face Spaces: бесплатный хостинг портфолио для AI-проектов и ещё 7 нов...