LLM

Редкое редактирование весов для безопасных многоязычных llm

Heli
Автор
Heli
Опубликовано 28.02.2026
0,0
Views 2

Выравнивание безопасности многоязычных моделей — сложная задача, поскольку стратегии, эффективные для одного языка, могут не переноситься на другие. В данной работе мы представляем новый метод выравнивания безопасности, использующий редкое редактирование весов для адаптации больших языковых моделей (LLM) к различным языкам, сохраняя при этом их производительность.

Редкое редактирование весов

Наш подход основан на идее идентификации и изменения только небольшого подмножества весов LLM, которые наиболее важны для генерации небезопасного контента. Это достигается с помощью оценки чувствительности, которая определяет, какие веса оказывают наибольшее влияние на вероятность генерации небезопасного ответа. Затем эти веса корректируются, чтобы снизить вероятность генерации вредоносного контента.

Мы применяем эту технику к моделям Llama 2, обученным на нескольких языках. Результаты показывают, что редкое редактирование весов эффективно повышает безопасность моделей на нескольких языках, не ухудшая значительно их производительность. Этот метод особенно полезен для языков с ограниченными ресурсами, где сложно собрать большие наборы данных для обучения.

В частности, мы обнаружили, что для достижения хороших результатов достаточно изменить менее 1% весов модели. Это делает наш метод вычислительно эффективным и масштабируемым для больших LLM. Мы также показываем, что наш метод превосходит другие методы выравнивания безопасности, такие как тонкая настройка с использованием фильтрованных данных.

Sparse Weight Editing

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие новости