обобщающая способность rlhf при изменении вознаграждения
Обобщение RLHF при изменении вознаграждения и ограничении KL-регуляризации
Обучение с подкреплением на основе обратной связи от человека (RLHF) стало стандартным методом настройки больших языковых моделей (LLM). Однако производительность RLHF ухудшается при изменении распределения вознаграждений между обучением и развертыванием. В этой работе исследуется обобщающая способность RLHF при изменении вознаграждения и исследовании влияния ограниченной KL-регуляризации, используемой для стабилизации процесса обучения. Авторы обнаружили, что ограничение KL-регуляризации может ухудшить обобщающую способность, когда присутствует изменение вознаграждения. Кроме того, они предлагают новый метод, который улучшает обобщающую способность RLHF при изменении вознаграждения, адаптируя силу KL-регуляризации на основе оценки изменения вознаграждения. Эксперименты показывают, что предлагаемый метод превосходит существующие методы RLHF в сценариях с изменением вознаграждения.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru