agentsentry: защита от косвенной инъекции промптов в llm

AgentSentry решает проблему косвенной инъекции промптов в агентах LLM за счет временной диагностике причинно-следственных связей и очистки контекста. Косвенная инъекция промптов возникает, когда вредоносные инструкции внедряются в источники данных, к которым агент имеет доступ, а не напрямую в промпт агента.

Агент Sentry использует два основных компонента: временную диагностику причинно-следственных связей и очистку контекста. Временная диагностика причинно-следственных связей выявляет источники вредоносных инструкций путем отслеживания того, как информация передается и изменяется с течением времени. Очистка контекста удаляет вредоносные инструкции из контекста агента, прежде чем они могут быть выполнены.

Временная диагностика причинно-следственных связей работает за счет регистрации всех взаимодействий агента с окружающей средой, включая запросы к внешним источникам данных и изменения контекста агента. Эта информация используется для создания графа причинно-следственных связей, который показывает, как информация передается и изменяется с течением времени. Затем граф используется для определения источников вредоносных инструкций.

Очистка контекста работает за счет использования модели LLM для оценки контекста агента на предмет вредоносных инструкций. Если обнаруживаются вредоносные инструкции, они удаляются из контекста. Этот процесс помогает предотвратить выполнение агентом вредоносных инструкций.

Оценка показывает, что AgentSentry эффективно смягчает косвенную инъекцию промптов в агентах LLM.

НАВИГАЦИЯ

МЕНЮ

agentsentry: защита от косвенной инъекции промптов в llm

Похожие статьи

Создание AI-агентов с памятью: кратковременной, долговременной и эпизодической

superglasses: оценка llm для умных очков

Механистическое отслеживание данных: поиск истоков работы нейросетей

Что такое параметры в машинном обучении?

ppcr-im: прогнозирование последствий государственной политики