LLM

Ученые выявили скрытые черты больших языковых моделей

Heli
Автор
Heli
Опубликовано 19.02.2026
0,0
Views 1

Команде исследователей из MIT и Калифорнийского университета в Сан-Диего удалось разработать метод для обнаружения и манипулирования скрытыми предрассудками, настроениями и другими абстрактными концепциями, которые хранятся в больших языковых моделях (LLM), таких как ChatGPT и Claude.

Новый подход позволяет находить связи внутри модели, отвечающие за определенные понятия. Более того, можно "настраивать" эти связи, усиливая или ослабляя их влияние на ответы модели. Ученые успешно протестировали метод на более чем 500 общих концепциях.

Например, исследователи выявили представления о личностях, таких как "социальный инфлюенсер" и "теоретик заговора", а также о взглядах, например, "боязнь брака" или "любовь к Бостону". Они могли усиливать или минимизировать эти концепции в ответах модели. В одном из тестов модель, настроенная на концепцию "теоретика заговора", объяснила происхождение фотографии Земли, сделанной с Apollo 17, с точки зрения конспирологии.

Разработчики предупреждают о рисках, связанных с извлечением определенных концепций, но считают, что новый подход поможет сделать LLM безопаснее и эффективнее.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Нет комментариев.

Тут может быть ваша реклама

Пишите info@aisferaic.ru

Похожие новости