LLM

Как адаптировать LLM под человеческие предпочтения без reward model

Heli
Автор
Heli
Опубликовано 13.02.2026
0,0
Views 17

В обучающем туториале показано, как выполнить прямую оптимизацию предпочтений (DPO) без использования reward-модели — заменяющего подхода на RLHF. Процесс объединяет DPOTrainer из библиотеки TRL, QLoRA и PEFT, чтобы обучение помещалось на один GPU в Google Colab.

Авторы обучают модель на бинаризованном датасете UltraFeedback: для каждого промпта в нём есть предпочтительный и отвергнутый ответы. Это позволяет формировать стиль и поведение модели, а не только воспроизведение фактов. Для эффективности применяется 4-битное квантование и LoRA-адаптеры — только 2,5–3 % параметров обучаются.

После обучения можно загрузить обновлённую модель и сравнить её ответы с оригинальной: между базовой и DPO-моделью в выборке из трёх примеров видна разница в качестве и стиле генераций.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие новости