Вышел Qwen3.7-Max не уступает Claude Opus 4.6

20 мая 2026 года на Alibaba Cloud Summit в Ханчжоу Alibaba официально представили Qwen3.7-Max — флагманскую модель серии Qwen3.7. Модель появилась на Arena AI за несколько дней до анонса без пресс-релиза, а официальное объявление подтвердило то что сообщество уже заметило по лидербордам.

Что такое Qwen3.7-Max и чем он отличается от предыдущих моделей

Qwen3.7-Max — проприетарная модель только для текста с контекстным окном в 1 миллион токенов и расширенным режимом мышления. Alibaba позиционируют её как наиболее продвинутую агентную модель в линейке Qwen.

По внутренним данным Alibaba, модель работала полностью автономно 35 часов, совершила более 1158 вызовов инструментов и самостоятельно оптимизировала CUDA-ядро для работы с длинным контекстом — на железе на котором никогда не обучалась. Результат — 10-кратный прирост скорости инференса. Эти цифры основаны на внутреннем тесте Alibaba и пока не имеют независимой верификации.

Бенчмарки и место в рейтингах

На BenchLM Qwen3.7-Max занимает третье место из 117 моделей с общим счётом 92/100 и второе место из 25 на верифицированном лидерборде.

На Arena AI модель набрала 1475 Elo в текстовом лидерборде — 13-е место глобально. По категориям: четвёртое место в кодинге с результатом 92.2.

SWE-bench результаты: - SWE-Verified: 80.4% — статистически вровень с Claude Opus 4.6 Max (80.8%) и DeepSeek V4-Pro Max (80.6%) - SWE-bench Pro: 60.6% — выше DeepSeek V4-Pro, ниже Claude Opus 4.7 (64.3%)

Reasoning и математика: - GPQA Diamond: 92.4 — выше Claude Opus 4.6 (91.3) - HLE: 41.4 против Opus 4.6 (40.0) - HMMT 2026 February: 97.1 против Opus 4.6 (96.2) - Apex: 44.5 — существенный отрыв от DeepSeek V4-Pro (38.3)

KernelBench L3 (оптимизация GPU-ядер): 96% acceleration rate — уступает Opus 4.6 (98%) но опережает GLM-5.1 (78%), Kimi K2.6 (80%) и DeepSeek V4-Pro (54%).

Важная оговорка от исследователей: на AA-Omniscience benchmark attempt rate упал с 67.3% до 48.0%. Модель стала меньше галлюцинировать, но и чаще отказывается отвечать — сырое фактическое воспроизведение тоже снизилось. Для задач на воспроизведение знаний рекомендуется тестировать отдельно.

Ключевой кейс: оптимизация ядра без предварительного обучения

Наиболее значимый результат из релиза — не бенчмарк, а операционный стресс-тест.

Команда Alibaba поставила задачу: оптимизировать Extend Attention kernel — латентно-критичный компонент в LLM inference serving — на процессоре T-Head Zhenwu M890 PPU. Это специализированное железо на котором модель никогда не обучалась.

Модель работала автономно, итерировала архитектуру ядра, и в итоге достигла 10-кратного ускорения. Подобная способность к адаптации на незнакомом железе через агентный цикл — принципиально новое поведение по сравнению с предыдущими версиями.

Тестирование на разных харнессах

Интересная деталь из релиза: Alibaba специально тестировали модель на трёх разных агентных харнессах — OpenClaw, Claude Code и Hermes. Разброс результатов составил около 6 пунктов.

Это редкость для официальных релизов. Большинство компаний публикуют бенчмарки только под собственным харнессом. Тестирование на Claude Code и OpenClaw сигнализирует что модель проектировалась для реальных агентных воркфлоу, а не для победы в одном конкретном тесте.

Мультимодальность и ограничения

Qwen3.7-Max — только текст. Для мультимодальных задач с поддержкой изображений нужна Qwen3.7-Plus-Preview.

Как и все модели семейства Max, Qwen3.7-Max пока в статусе Preview. Бенчмарки, поведение и цена могут измениться до стабильного релиза.

Доступность и цена

Модель доступна через: - Qwen Studio — chat.qwen.ai - Alibaba Cloud Model Studio — API через платформу Bailian

Веса Max-версии закрыты. Открытые веса будут у Plus-версии серии Qwen3.7 — по аналогии с предыдущими поколениями.

По данным независимых оценок, ценовой диапазон ожидается в районе $1.00–$1.50 за миллион входных токенов и $6.00–$10.00 за миллион выходных — близко к Qwen3.6-Max-Preview.

Стратегический контекст

Анонс вышел в момент когда китайские облачные провайдеры активно конкурируют за корпоративные AI-контракты. Alibaba Cloud напрямую связывает производительность модели с коммерческой платформой Bailian — стратегический ход который привязывает продажи модели к облачной выручке.

На глобальном уровне Qwen3.7-Max не доминирует по всем показателям, но занимает уверенное второе место и держит явное лидерство на внутреннем китайском рынке — что критично для корпоративных закупок в регулируемой технологической среде.

Что такое Qwen3.7-Max и чем он отличается от предыдущих моделей

Бенчмарки и место в рейтингах

Ключевой кейс: оптимизация ядра без предварительного обучения

Тестирование на разных харнессах

Мультимодальность и ограничения

Доступность и цена

Стратегический контекст

Похожие новости

MiniMax M3: открытая мультимодальная модель с контекстом 1M токенов

Вышел Claude Opus 4.8

Google Gemini 3.5 Flash и Antigravity: что показали на Google I/O 2026

Как ИИ и симуляции меняют научные исследования и ещё 11 новости

DeepSeek DSpark Технология ускорения ИИ до 400%

Anthropic Claude Fable-5 Mythos — первая модель класса Mythos, обходит Opus 4.8