Как адаптировать LLM под человеческие предпочтения без reward model
В обучающем туториале показано, как выполнить прямую оптимизацию предпочтений (DPO) без использования reward-модели — заменяющего подхода на RLHF. Процесс объединяет DPOTrainer из библиотеки TRL, QLoRA и PEFT, чтобы обучение помещалось на один GPU в Google Colab.
Авторы обучают модель на бинаризованном датасете UltraFeedback: для каждого промпта в нём есть предпочтительный и отвергнутый ответы. Это позволяет формировать стиль и поведение модели, а не только воспроизведение фактов. Для эффективности применяется 4-битное квантование и LoRA-адаптеры — только 2,5–3 % параметров обучаются.
После обучения можно загрузить обновлённую модель и сравнить её ответы с оригинальной: между базовой и DPO-моделью в выборке из трёх примеров видна разница в качестве и стиле генераций.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru