Универсальная Структура Для Безопасного RLHF

Обучение с подкреплением на основе обратной связи от человека (RLHF) играет важную роль в адаптации больших языковых моделей (LLM) к предпочтениям пользователей. Формулировка RLHF с ограничениями по ожидаемой награде как задача оптимизации двойственного типа, однако, стандартные методы решения таких задач гарантируют сходимость лишь при использовании распределенной политики, когда задача седлового типа имеет форму выпуклой-вогнутой функции. Более того, стандартные методы могут проявлять нестабильность или расхождение на последней итерации при параметризации политики в практических приложениях.

В данной работе предлагается универсальная структура для безопасного RLHF, объединяющая широкий класс существующих алгоритмов выравнивания, включая safe-RLHF, однопроходные и многопроходные методы. На основе этой структуры представлен оптимистический примально-дуальный (OPD) алгоритм, включающий прогностические обновления как для примальных, так и для дуальных переменных, для стабилизации динамики седлового типа.

Гарантии сходимости последней итерации

Авторы работы установили гарантии сходимости последней итерации для предложенного метода, охватывающие как точную оптимизацию политики в распределенном пространстве, так и сходимость к окрестности оптимального решения, разрыв в которой связан с ошибкой аппроксимации и смещением при использовании параметризованных политик. Анализ показывает, что оптимизм играет решающую роль в смягчении колебаний, присущих ограниченным целям выравнивания, тем самым устраняя ключевой теоретический разрыв между ограниченным обучением с подкреплением и практическим RLHF.

Предложенный OPD алгоритм эффективно стабилизирует процесс обучения, предотвращая расхождение на заключительных этапах, что особенно важно при применении к сложным задачам выравнивания LLM. Использование прогностических обновлений позволяет более плавно приближаться к оптимальному решению, учитывая ограничения безопасности.

Полученные теоретические результаты подтверждают практическую значимость оптимистического подхода и открывают новые возможности для разработки более надежных и эффективных алгоритмов RLHF. Это позволяет создавать LLM, которые не только соответствуют ожиданиям пользователей, но и действуют безопасно и предсказуемо.

Универсальная Структура Для Безопасного RLHF

Универсальная структура для безопасного RLHF

Гарантии сходимости последней итерации

Похожие новости

Пятиуровневая структура безопасности для автономных агентов llm и ещё 17 новости

Саморазвивающаяся система навыков на основе openspace и ещё 16 новости

Безопасные конвейеры llm с outlines и pydantic и ещё 15 новости

Будущее искусственного интеллекта и науки и ещё 12 новости

Стратегии безопасного развертывания моделей машинного обучения и ещё 13 новости

10 ключевых инструментов для работы с большими языковыми моделями к 2026 году