обобщающая способность rlhf при изменении вознаграждения

Автор

Heli

Опубликовано 02.03.2026

0,0

Обобщение RLHF при изменении вознаграждения и ограничении KL-регуляризации

Обучение с подкреплением на основе обратной связи от человека (RLHF) стало стандартным методом настройки больших языковых моделей (LLM). Однако производительность RLHF ухудшается при изменении распределения вознаграждений между обучением и развертыванием. В этой работе исследуется обобщающая способность RLHF при изменении вознаграждения и исследовании влияния ограниченной KL-регуляризации, используемой для стабилизации процесса обучения. Авторы обнаружили, что ограничение KL-регуляризации может ухудшить обобщающую способность, когда присутствует изменение вознаграждения. Кроме того, они предлагают новый метод, который улучшает обобщающую способность RLHF при изменении вознаграждения, адаптируя силу KL-регуляризации на основе оценки изменения вознаграждения. Эксперименты показывают, что предлагаемый метод превосходит существующие методы RLHF в сценариях с изменением вознаграждения.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

обобщающая способность rlhf при изменении вознаграждения

Похожие статьи

Duel-evolve: масштабирование llm без вознаграждений

superglasses: оценка llm для умных очков

Механистическое отслеживание данных: поиск истоков работы нейросетей

radar: рассуждение как дискриминация для llm

Swe-protégé: обучение маленьких llm с помощью эксперта

See it, say it, sorted: упрощение рассуждений в lvlm