Вероятностное объяснение возникновения рассуждений в RLVR
Исследователи предложили новую интерпретацию, почему большие языковые модели (LLM), обучаемые через подкрепление с проверяемыми наградами (RLVR), начинают демонстрировать сложные рассуждения. По их гипотезе, это не появление совсем новых способностей, а усиление уже существующих — за счёт повышения вероятности успешного выполнения отдельных шагов.
В экспериментах модели обучали только на одном шаге вычислений (в рамках фреймворка Algebrarium), а затем проверяли их способность решать многошаговые задачи. Результаты подтвердили, что RLVR расширяет доступные варианты решений, усиливая существующие навыки. Качество итогового ответа напрямую связано с совместной вероятностью успешных отдельных шагов (коэффициент корреляции Пирсона от 0,69 до 0,96). При этом глобальная оптимизация награды может привести к жертвованию отдельными навыками ради общего результата.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru