CrewAI

Как избежать налога на согласованность при обучении LLM

Heli
Автор
Heli
Опубликовано 16.02.2026
0,0
Views 7

В обучении больших языковых моделей часто возникает явление, называемое «налогом на согласованность»: после дополнительного обучения для соблюдения безопасности модель теряет часть общей полезности — например, снижается качество рассуждений и написания кода. По мнению авторов работы, это происходит из-за того, что последовательное выравнивание по безопасным шаблонам похоже на задачу непрерывного обучения, где новые данные конфликтуют с предыдущими и стирают устоявшиеся навыки.

Предложенный метод OGPSA решает проблему, рассматривая согласованность как задачу баланса между гибкостью (освоение новых правил безопасности) и устойчивостью (сохранение изначальных способностей). Он использует ортогональную проекцию градиентов: перед обновлением модели градиент для безопасности проецируется на подпространство, ортогональное пространству общих навыков. Так обновления почти не затрагивают уже обучённое, но при этом остаются эффективными.

Метод совместим со стандартными этапами постобучения — SFT и DPO — без дополнительных затрат на память или переобучение. В тестах на модели Qwen2.5-7B-Instruct он позволил существенно поднять показатели общей полезности: SimpleQA вырос с 0,53 % до 3,03 %, а IFEval — с 51,94 % до 63,96 %. Исходный код доступен на GitHub.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru