Универсальная Структура Для Безопасного RLHF
Обучение с подкреплением на основе обратной связи от человека (RLHF) играет важную роль в адаптации больших языковых моделей (LLM) к предпочтениям пользователей. Формулировка RLHF с ограничениями по ожидаемой награде как задача оптимизации двойственного типа, однако, стандартные методы решения таких задач гарантируют сходимость лишь при использовании распределенной политики, когда задача седлового типа имеет форму выпуклой-вогнутой функции. Более того, стандартные методы могут проявлять нестабильность или расхождение на последней итерации при параметризации политики в практических приложениях.
Универсальная структура для безопасного RLHF
В данной работе предлагается универсальная структура для безопасного RLHF, объединяющая широкий класс существующих алгоритмов выравнивания, включая safe-RLHF, однопроходные и многопроходные методы. На основе этой структуры представлен оптимистический примально-дуальный (OPD) алгоритм, включающий прогностические обновления как для примальных, так и для дуальных переменных, для стабилизации динамики седлового типа.
Гарантии сходимости последней итерации
Авторы работы установили гарантии сходимости последней итерации для предложенного метода, охватывающие как точную оптимизацию политики в распределенном пространстве, так и сходимость к окрестности оптимального решения, разрыв в которой связан с ошибкой аппроксимации и смещением при использовании параметризованных политик. Анализ показывает, что оптимизм играет решающую роль в смягчении колебаний, присущих ограниченным целям выравнивания, тем самым устраняя ключевой теоретический разрыв между ограниченным обучением с подкреплением и практическим RLHF.
Предложенный OPD алгоритм эффективно стабилизирует процесс обучения, предотвращая расхождение на заключительных этапах, что особенно важно при применении к сложным задачам выравнивания LLM. Использование прогностических обновлений позволяет более плавно приближаться к оптимальному решению, учитывая ограничения безопасности.
Полученные теоретические результаты подтверждают практическую значимость оптимистического подхода и открывают новые возможности для разработки более надежных и эффективных алгоритмов RLHF. Это позволяет создавать LLM, которые не только соответствуют ожиданиям пользователей, но и действуют безопасно и предсказуемо.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru