Вышел Qwen3.7-Max не уступает Claude Opus 4.6
20 мая 2026 года на Alibaba Cloud Summit в Ханчжоу Alibaba официально представили Qwen3.7-Max — флагманскую модель серии Qwen3.7. Модель появилась на Arena AI за несколько дней до анонса без пресс-релиза, а официальное объявление подтвердило то что сообщество уже заметило по лидербордам.
Что такое Qwen3.7-Max и чем он отличается от предыдущих моделей
Qwen3.7-Max — проприетарная модель только для текста с контекстным окном в 1 миллион токенов и расширенным режимом мышления. Alibaba позиционируют её как наиболее продвинутую агентную модель в линейке Qwen.
По внутренним данным Alibaba, модель работала полностью автономно 35 часов, совершила более 1158 вызовов инструментов и самостоятельно оптимизировала CUDA-ядро для работы с длинным контекстом — на железе на котором никогда не обучалась. Результат — 10-кратный прирост скорости инференса. Эти цифры основаны на внутреннем тесте Alibaba и пока не имеют независимой верификации.
Бенчмарки и место в рейтингах
На BenchLM Qwen3.7-Max занимает третье место из 117 моделей с общим счётом 92/100 и второе место из 25 на верифицированном лидерборде.
На Arena AI модель набрала 1475 Elo в текстовом лидерборде — 13-е место глобально. По категориям: четвёртое место в кодинге с результатом 92.2.
SWE-bench результаты: - SWE-Verified: 80.4% — статистически вровень с Claude Opus 4.6 Max (80.8%) и DeepSeek V4-Pro Max (80.6%) - SWE-bench Pro: 60.6% — выше DeepSeek V4-Pro, ниже Claude Opus 4.7 (64.3%)
Reasoning и математика: - GPQA Diamond: 92.4 — выше Claude Opus 4.6 (91.3) - HLE: 41.4 против Opus 4.6 (40.0) - HMMT 2026 February: 97.1 против Opus 4.6 (96.2) - Apex: 44.5 — существенный отрыв от DeepSeek V4-Pro (38.3)
KernelBench L3 (оптимизация GPU-ядер): 96% acceleration rate — уступает Opus 4.6 (98%) но опережает GLM-5.1 (78%), Kimi K2.6 (80%) и DeepSeek V4-Pro (54%).
Важная оговорка от исследователей: на AA-Omniscience benchmark attempt rate упал с 67.3% до 48.0%. Модель стала меньше галлюцинировать, но и чаще отказывается отвечать — сырое фактическое воспроизведение тоже снизилось. Для задач на воспроизведение знаний рекомендуется тестировать отдельно.
Ключевой кейс: оптимизация ядра без предварительного обучения
Наиболее значимый результат из релиза — не бенчмарк, а операционный стресс-тест.
Команда Alibaba поставила задачу: оптимизировать Extend Attention kernel — латентно-критичный компонент в LLM inference serving — на процессоре T-Head Zhenwu M890 PPU. Это специализированное железо на котором модель никогда не обучалась.
Модель работала автономно, итерировала архитектуру ядра, и в итоге достигла 10-кратного ускорения. Подобная способность к адаптации на незнакомом железе через агентный цикл — принципиально новое поведение по сравнению с предыдущими версиями.
Тестирование на разных харнессах
Интересная деталь из релиза: Alibaba специально тестировали модель на трёх разных агентных харнессах — OpenClaw, Claude Code и Hermes. Разброс результатов составил около 6 пунктов.
Это редкость для официальных релизов. Большинство компаний публикуют бенчмарки только под собственным харнессом. Тестирование на Claude Code и OpenClaw сигнализирует что модель проектировалась для реальных агентных воркфлоу, а не для победы в одном конкретном тесте.
Мультимодальность и ограничения
Qwen3.7-Max — только текст. Для мультимодальных задач с поддержкой изображений нужна Qwen3.7-Plus-Preview.
Как и все модели семейства Max, Qwen3.7-Max пока в статусе Preview. Бенчмарки, поведение и цена могут измениться до стабильного релиза.
Доступность и цена
Модель доступна через: - Qwen Studio — chat.qwen.ai - Alibaba Cloud Model Studio — API через платформу Bailian
Веса Max-версии закрыты. Открытые веса будут у Plus-версии серии Qwen3.7 — по аналогии с предыдущими поколениями.
По данным независимых оценок, ценовой диапазон ожидается в районе $1.00–$1.50 за миллион входных токенов и $6.00–$10.00 за миллион выходных — близко к Qwen3.6-Max-Preview.
Стратегический контекст
Анонс вышел в момент когда китайские облачные провайдеры активно конкурируют за корпоративные AI-контракты. Alibaba Cloud напрямую связывает производительность модели с коммерческой платформой Bailian — стратегический ход который привязывает продажи модели к облачной выручке.
На глобальном уровне Qwen3.7-Max не доминирует по всем показателям, но занимает уверенное второе место и держит явное лидерство на внутреннем китайском рынке — что критично для корпоративных закупок в регулируемой технологической среде.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru