LLM

обобщающая способность rlhf при изменении вознаграждения

Heli
Автор
Heli
Опубликовано 02.03.2026
0,0
Views 2

Обобщение RLHF при изменении вознаграждения и ограничении KL-регуляризации

Обучение с подкреплением на основе обратной связи от человека (RLHF) стало стандартным методом настройки больших языковых моделей (LLM). Однако производительность RLHF ухудшается при изменении распределения вознаграждений между обучением и развертыванием. В этой работе исследуется обобщающая способность RLHF при изменении вознаграждения и исследовании влияния ограниченной KL-регуляризации, используемой для стабилизации процесса обучения. Авторы обнаружили, что ограничение KL-регуляризации может ухудшить обобщающую способность, когда присутствует изменение вознаграждения. Кроме того, они предлагают новый метод, который улучшает обобщающую способность RLHF при изменении вознаграждения, адаптируя силу KL-регуляризации на основе оценки изменения вознаграждения. Эксперименты показывают, что предлагаемый метод превосходит существующие методы RLHF в сценариях с изменением вознаграждения.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие статьи