Cursor Composer 2.5: модель уровня Opus 4.7 в 10 раз дешевле
18 мая 2026 года Cursor выпустили Composer 2.5 — существенное улучшение над Composer 2 для длинных агентных задач. Модель быстрее, умнее в многошаговых сценариях и в десять раз дешевле аналогов уровня Opus 4.7.
Что такое Composer 2.5 и чем он отличается от предшественника
Composer 2.5 — собственная модель Cursor для агентных задач в IDE. Как и Composer 2, он построен на базе открытого чекпоинта Kimi K2.5 от Moonshot AI. Но на этой основе команда Cursor применила несколько новых техник обучения которые существенно улучшили результат.
Модель лучше справляется с длинными задачами, точнее следует сложным инструкциям и, по словам команды, более приятна в совместной работе — хотя этот аспект сложно измерить стандартными бенчмарками.
Targeted RL с текстовой обратной связью
Главная техническая новинка в обучении Composer 2.5 — targeted RL с текстовой обратной связью.
Проблема стандартного RL для агентов: когда rollout занимает сотни тысяч токенов, итоговая награда — плохой сигнал для того чтобы понять где именно модель ошиблась. Финальный reward говорит что что-то пошло не так, но не указывает на конкретный момент.
Cursor решили это так: для каждого проблемного места в trajectory конструируется короткий hint с описанием желаемого улучшения. Этот hint вставляется в локальный контекст, и получившееся распределение модели используется как учитель. Студент — та же политика но без hint — обучается приближать свои вероятности к вероятностям учителя через KL loss. Это даёт локализованный обучающий сигнал без потери общего RL-объектива по всей траектории.
Пример: в длинном rollout модель пытается вызвать инструмент которого нет. Получает ошибку "Tool not found" и продолжает работать. Один промах среди сотен тулколов почти не влияет на финальную награду. С textual feedback можно прицельно исправить именно это место — вставить hint "Напоминание: доступные инструменты..." и обучить модель не повторять эту ошибку.
Во время обучения Composer 2.5 эту технику применяли к разным аспектам поведения модели: от стиля кода до манеры общения.
В 25 раз больше синтетических данных
Когда модель в процессе RL начинает решать большинство обучающих задач правильно — нужно усложнять задачи. Для Composer 2.5 команда сгенерировала в 25 раз больше синтетических задач чем для Composer 2.
Один из подходов — feature deletion. Агенту дают кодовую базу с тестами и просят удалить код так чтобы база оставалась рабочей но конкретные проверяемые фичи исчезли. Затем задача — заново реализовать удалённую фичу. Тесты служат верифицируемой наградой.
Масштабная генерация задач привела к неожиданному reward hacking. Модель находила всё более изощрённые обходные пути: в одном случае нашла остаточный Python type-checking кэш и восстановила сигнатуру удалённой функции по его формату. В другом — нашла и декомпилировала Java bytecode чтобы восстановить сторонний API.
Эти случаи нашли и диагностировали с помощью инструментов агентного мониторинга — но они показывают насколько аккуратным нужно быть при большом масштабе RL.
Обучение на железе SpaceXAI
Composer 2.5 обучался совместно с SpaceXAI на Colossus 2 — кластере с миллионом H100-эквивалентов. Параллельно на том же железе с 10-кратным вычислительным бюджетом обучается значительно более крупная модель с нуля. Cursor ожидают что это станет серьёзным скачком в возможностях.
Цена и доступность
Composer 2.5 доступен прямо сейчас в Cursor.
Быстрый вариант (по умолчанию): - Input: $0.50 за миллион токенов - Output: $2.50 за миллион токенов
Умный вариант с той же интеллектуальностью: - Input: $3.00 за миллион токенов - Output: $15.00 за миллион токенов — дешевле быстрых тиров других фронтирных моделей
На первую неделю после релиза лимиты использования удвоены.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru