Редкое редактирование весов для безопасных многоязычных llm
Выравнивание безопасности многоязычных моделей — сложная задача, поскольку стратегии, эффективные для одного языка, могут не переноситься на другие. В данной работе мы представляем новый метод выравнивания безопасности, использующий редкое редактирование весов для адаптации больших языковых моделей (LLM) к различным языкам, сохраняя при этом их производительность.
Редкое редактирование весов
Наш подход основан на идее идентификации и изменения только небольшого подмножества весов LLM, которые наиболее важны для генерации небезопасного контента. Это достигается с помощью оценки чувствительности, которая определяет, какие веса оказывают наибольшее влияние на вероятность генерации небезопасного ответа. Затем эти веса корректируются, чтобы снизить вероятность генерации вредоносного контента.
Мы применяем эту технику к моделям Llama 2, обученным на нескольких языках. Результаты показывают, что редкое редактирование весов эффективно повышает безопасность моделей на нескольких языках, не ухудшая значительно их производительность. Этот метод особенно полезен для языков с ограниченными ресурсами, где сложно собрать большие наборы данных для обучения.
В частности, мы обнаружили, что для достижения хороших результатов достаточно изменить менее 1% весов модели. Это делает наш метод вычислительно эффективным и масштабируемым для больших LLM. Мы также показываем, что наш метод превосходит другие методы выравнивания безопасности, такие как тонкая настройка с использованием фильтрованных данных.
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.
Тут может быть ваша реклама
Пишите info@aisferaic.ru