Вероятностное объяснение возникновения рассуждений в RLVR

Автор

Heli

Опубликовано 15.02.2026

0,0

Исследователи предложили новую интерпретацию, почему большие языковые модели (LLM), обучаемые через подкрепление с проверяемыми наградами (RLVR), начинают демонстрировать сложные рассуждения. По их гипотезе, это не появление совсем новых способностей, а усиление уже существующих — за счёт повышения вероятности успешного выполнения отдельных шагов.

В экспериментах модели обучали только на одном шаге вычислений (в рамках фреймворка Algebrarium), а затем проверяли их способность решать многошаговые задачи. Результаты подтвердили, что RLVR расширяет доступные варианты решений, усиливая существующие навыки. Качество итогового ответа напрямую связано с совместной вероятностью успешных отдельных шагов (коэффициент корреляции Пирсона от 0,69 до 0,96). При этом глобальная оптимизация награды может привести к жертвованию отдельными навыками ради общего результата.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Похожие новости

НАВИГАЦИЯ

МЕНЮ

Вероятностное объяснение возникновения рассуждений в RLVR

Похожие новости

Как обучать LLM локально через федеративное обучение с LoRA

Исследование MIT: рейтинги больших языковых моделей могут быть нестабильными

Canzona: асинхронный фреймворк для распределённых оптимизаторов на матрицах

NVIDIA представила KVTC — сжатие KV-кэшей в LLM до 20 раз

Как адаптировать LLM под человеческие предпочтения без reward model

Google представляет Conductor: расширение Gemini CLI с контекстным управлением