Редкое редактирование весов для безопасных многоязычных llm

Выравнивание безопасности многоязычных моделей — сложная задача, поскольку стратегии, эффективные для одного языка, могут не переноситься на другие. В данной работе мы представляем новый метод выравнивания безопасности, использующий редкое редактирование весов для адаптации больших языковых моделей (LLM) к различным языкам, сохраняя при этом их производительность.

Редкое редактирование весов

Наш подход основан на идее идентификации и изменения только небольшого подмножества весов LLM, которые наиболее важны для генерации небезопасного контента. Это достигается с помощью оценки чувствительности, которая определяет, какие веса оказывают наибольшее влияние на вероятность генерации небезопасного ответа. Затем эти веса корректируются, чтобы снизить вероятность генерации вредоносного контента.

Мы применяем эту технику к моделям Llama 2, обученным на нескольких языках. Результаты показывают, что редкое редактирование весов эффективно повышает безопасность моделей на нескольких языках, не ухудшая значительно их производительность. Этот метод особенно полезен для языков с ограниченными ресурсами, где сложно собрать большие наборы данных для обучения.

В частности, мы обнаружили, что для достижения хороших результатов достаточно изменить менее 1% весов модели. Это делает наш метод вычислительно эффективным и масштабируемым для больших LLM. Мы также показываем, что наш метод превосходит другие методы выравнивания безопасности, такие как тонкая настройка с использованием фильтрованных данных.

Sparse Weight Editing

НАВИГАЦИЯ

МЕНЮ

Редкое редактирование весов

Похожие новости

Ускорение обучения LLM: новый метод от MIT и NVIDIA

Редактирование изображений по инструкции с помощью llm и диффузионных моделей

Смесь Экспертов (MoE) в Трансформерах: Масштабирование и Эффективность

Универсальная Структура Для Безопасного RLHF

Новый метод ускоряет обучение больших языковых моделей

ExpLang: Многоязычное обучение с подкреплением для LLM