Ученые выявили скрытые черты больших языковых моделей

Автор

Heli

Опубликовано 19.02.2026

0,0

Команде исследователей из MIT и Калифорнийского университета в Сан-Диего удалось разработать метод для обнаружения и манипулирования скрытыми предрассудками, настроениями и другими абстрактными концепциями, которые хранятся в больших языковых моделях (LLM), таких как ChatGPT и Claude.

Новый подход позволяет находить связи внутри модели, отвечающие за определенные понятия. Более того, можно "настраивать" эти связи, усиливая или ослабляя их влияние на ответы модели. Ученые успешно протестировали метод на более чем 500 общих концепциях.

Например, исследователи выявили представления о личностях, таких как "социальный инфлюенсер" и "теоретик заговора", а также о взглядах, например, "боязнь брака" или "любовь к Бостону". Они могли усиливать или минимизировать эти концепции в ответах модели. В одном из тестов модель, настроенная на концепцию "теоретика заговора", объяснила происхождение фотографии Земли, сделанной с Apollo 17, с точки зрения конспирологии.

Разработчики предупреждают о рисках, связанных с извлечением определенных концепций, но считают, что новый подход поможет сделать LLM безопаснее и эффективнее.

Авторизуйтесь, чтобы оставить комментарий.

Комментариев: 0

Похожие новости

НАВИГАЦИЯ

МЕНЮ

Ученые выявили скрытые черты больших языковых моделей

Похожие новости

Исследование MIT: рейтинги больших языковых моделей могут быть нестабильными

Многоуровневые фильтры безопасности для LLM: защита от атак | Новости ИИ

ИИ-подхалимство: почему нейросети соглашаются с пользователем

NVIDIA представила KVTC — сжатие KV-кэшей в LLM до 20 раз

Как обучать LLM локально через федеративное обучение с LoRA

Anthropic Claude 4.6 Sonnet: миллион токенов и адаптивное мышление