Безопасность ИИ‑агентов: угрозы и способы защиты
По данным Gartner, к концу 2026 года в 40% корпоративных приложений будут внедрены AI-агенты — годом ранее их было менее 5%. Каждый агент принимает решения, вызывает API, работает с базами данных и CRM — и создает новые точки входа для атак.
Проблему уже признают на уровне индустрии: OWASP — международное сообщество, которое формирует стандарты безопасности приложений, — посвятило агентам отдельный фреймворк Top 10 for Agentic Applications с десятью категориями угроз. В статье мы сгруппировали их в пять верхнеуровневых блоков и для каждого разобрали меры защиты. Такой подход поможет начать выстраивать безопасность ИИ-агентов последовательно: от входных данных до инфраструктуры.
Пять рисков агентных систем
Разберем основные категории угроз, с которыми сталкиваются агентные системы в продакшене.
Манипуляции входными данными
Агентные системы принимают данные от пользователей, внешних сервисов и других агентов. Злоумышленник может встроить в эти данные инструкции, которые изменят логику работы агента — обойдут ограничения, заставят игнорировать правила безопасности или подменят цели. Именно так работают промпт-инъекции, jailbreak-атаки и манипуляции контекстом.
Промпт-инъекции — угроза №1 в OWASP Top 10 for Agentic Applications 2026
Утечка и раскрытие данных
Агент обрабатывает персональные данные, коммерческую тайну, внутренние документы. При отсутствии ограничений он может вернуть чувствительную информацию пользователю, передать ее во внешний сервис или сохранить в логах. Риск особенно высок при работе с длинным контекстом, памятью агента и многошаговыми сценариями: в них сложнее отследить утечку. А без защиты от prompt injection агент может раскрыть данные даже в ответ на замаскированный запрос.
77% сотрудников enterprise-компаний хотя бы раз отправляли корпоративные данные в AI-чат. В 22% случаев — конфиденциальные персональные или финансовые данные, — LayerX, Enterprise AI & SaaS Data Security Report 2025
Злоупотребление инструментами
Платформы предоставляют агентам доступ к API, базам данных, файловым системам, почте, CRM. При неправильной настройке агент может вызвать критичные операции без подтверждения или использовать инструменты не по назначению. Без строгих политик действий риски ИИ-агентов растут вместе с их автономностью: одно некорректное решение с широкими полномочиями может обернуться серьезным ущербом.
Риски интеграций и цепочки поставки
Если внутренние инструменты можно настроить и контролировать, то внешние зависимости — API, плагины, SDK, источники данных — создают риски, которые сложнее отследить. Уязвимости или компрометация любого из этих компонентов могут привести к подмене данных или выполнению вредоносных инструкций через доверенные каналы. Особую сложность создают динамически подключаемые инструменты и непроверенные источники данных: они появляются в системе быстро, а обнаруживаются как точки входа уже после инцидента.
Операционные и инфраструктурные риски
Даже корректно настроенный агент остается уязвимым, если не выстроен контроль на инфраструктурном уровне: управление API-ключами и токенами, доступы операторов и администраторов, логирование чувствительных данных, мониторинг и аудит действий. Это также влияет на безопасность автономных ИИ-агентов и чаще всего остается вне зоны ответственности команды, которая запускает агентов.
Количество публичных AI-инцидентов выросло на 56% за 2025 год. Большинство связаны не с моделью, а с окружением, — Stanford HAI, 2025 AI Index Report
Все пять категорий рисков усиливаются по мере роста автономности агента, количества интеграций и объема обрабатываемых данных.
Как защитить агента: пять направлений
Основа защиты агентных систем — принцип least privilege, один из фундаментальных в информационной безопасности. OWASP адаптировал его для агентных систем как least agency: контроль доступа ИИ-агентов строится на минимальной автономности, необходимой для решения задачи. Этот принцип охватывает четыре направления защиты — вход и выход, логику, данные, инструменты агента.
Пятое направление — инфраструктура — технически выходит за рамки least agency, но даже корректно настроенный агент остается уязвимым, если инфраструктурный слой вокруг него не защищен.
Рассмотрим каждое направление защиты подробнее.
Вход и выход агента
Цель:
Предотвратить манипуляции поведением агента и небезопасный вывод данных.
Решение:
- Анализируйте входящие запросы автоматически. Настройте автоматический анализ для выявления промпт-инъекций, jailbreak-атак и других попыток манипуляции поведением агента. Такие механизмы позволяют обнаруживать попытки изменения роли агента, обхода ограничений или внедрения управляющих инструкций в пользовательский ввод и данные из внешних источников.
- Валидируйте и нормализуйте входные данные на каждом шаге агента. Задавайте и проверяйте формат входных параметров через функции или код валидации входных параметров.
- Ограничивайте частоту и объем запросов. Настройте rate limiting на уровне конфигурации агентной платформы для предотвращения злоупотреблений.
- Не доверяйте выводам LLM напрямую. Валидируйте структуру ответов агента и проверяйте вывод перед отображением или передачей во внешние системы.
- Фильтруйте выходные данные агента. Применяйте контент-фильтрацию к ответам агента, чтобы исключить генерацию небезопасного контента.
- Проверяйте структуру ответов перед передачей. Выделите агент-контроллер — отдельный шаг, который валидирует формат и допустимые значения выходных данных до отправки во внешние системы.
- Контролируйте результаты вручную. Предусмотрите проверку выходных данных человеком перед передачей во внешние системы.
Логика и контроль принятия решений
Цель:
Исключить выполнение агентом действий, противоречащих его назначению и политикам безопасности.
Решение:
- Усильте системный промпт. Четко определите роль, цели и ограничения агента в системных инструкциях. Явно запрещайте действия, выходящие за рамки его функциональной ответственности.
- Ограничьте универсальность. Используйте специализированных агентов вместо одного «всезнающего».
- Отслеживайте действия агента. Например, Just AI Agent Platform и Jay Guard логируют данные о запусках агентов и вызовах инструментов. Для анализа логов и мониторинга поведения ИИ-агента подключайте ИТ и/или ИБ-службы.
Данные и контекст
Цель:
Снизить риск утечек, отравления данных и несанкционированного доступа к знаниям.
Решение:
- Обеспечьте гранулярный контроль. Настраивайте доступ агентов к базам данных и источникам знаний на основе ролей и целей агента. Агент должен иметь доступ только к тем данным, которые ему нужны для выполнения задачи и только к необходимым операциям (например, чтение без записи).
- Исключите передачу в LLM чувствительной информации. На уровне средств контроля безопасности можно использовать настроенные политики маскирования и фильтрации данных. Например, Jay Guard автоматически выявляет и маскирует персональные и чувствительные данные в соответствии с правилами, заданными на уровне компании, до передачи данных в LLM. Дополнительно можно применять пользовательские функции или код проверки для предобработки данных перед передачей в модель.
- Контролируйте целостность и происхождение данных. Используйте централизованные и управляемые хранилища данных для документов и знаний, подключаемых к RAG. Исключайте автодобавление непроверенных данных в базы знаний, классические инструменты контроля целостности, версионирования и мониторинга изменений данных. Ограничивайте возможность изменения данных и отслеживайте, кто и когда вносил изменения. Фиксируйте источники данных, используемые агентом, для последующего анализа и аудита и проверяйте источники данных и базы знаний на предмет отравления данных и несанкционированных изменений.
Инструменты и действия
Цель:
Предотвратить злоупотребление доступом к инструментам и внешним системам.
Решение:
- Давайте минимум привилегий. Определяйте набор инструментов и API исходя из целей конкретного агента. Исключайте предоставление избыточного доступа «на всякий случай». Регулярно пересматривайте список доступных инструментов по мере изменения задач агента.
- Изолируйте учетные записи. Создавайте отдельные сервисные учетные записи для агентов — не используйте аккаунты сотрудников. Между агентами передаются только бизнес-данные, но не секреты, ключи или токены.
- Внедрите Human-in-the-Loop. Для критических и необратимых операций предусматривайте подтверждение человеком.
Инфраструктура
Цель:
Обеспечить управляемость, наблюдаемость и устойчивость агентной системы.
Решение:
- Обеспечьте безопасность цепочки поставок (Supply Chain Security). Используйте только доверенные и проверенные модели, библиотеки и компоненты, сканируйте зависимости и контейнерные образы на наличие известных уязвимостей. Фиксируйте версии критичных компонентов и контролируйте их обновление. Ограничивайте использование непроверенных сторонних SDK, плагинов и инструментов.
- Контролируйте потребления ресурсов и расходов, связанные с вызовами LLM и инструментов. Настройте лимиты на количество токенов и вызовов, отслеживайте аномальные паттерны потребления — они могут сигнализировать о компрометации агента или нецелевом использовании.
Агентные платформы корпоративного уровня закрывают часть задач безопасности AI agents архитектурно. Just AI Agent Platform включает RBAC, логирование действий агентов, лимиты на токены и вызовы, деплой в контуре заказчика.
С чего начать: безопасность на двух уровнях
Безопасность агентных систем выстраивается на уровне бизнеса и на уровне проектирования отдельного агента. Описали оба подхода в чек-листах, чтобы можно было двигаться по шагам и ничего не упустить.
Чек-лист: безопасность на уровне организации
- Определите роли и ответственность за безопасность AI-агентов (IT / ИБ / продукт).
- Утвердите корпоративные политики: работа с данными, управление доступами, допустимый уровень автономности агентов.
- Внедрите обязательный security-review при запуске новых агентов или существенных изменениях в логике существующих.
- Проводите регулярные red-teaming и adversarial-тесты агентных сценариев.
- Настройте централизованное логирование и мониторинг работы агентов, подключите к мониторингу службы ИБ и/или IT.
- Определите процесс реагирования на инциденты, связанные с агентами.
- Проводите периодический аудит агентов (доступы, инструменты, данные, цели).
- Используйте утвержденные и проверенные модели, SDK и зависимости.
- Обучите сотрудников, проектирующих агентов, основным рискам agentic-систем и мерам их снижения.
Чек-лист: безопасность на уровне проектирование агента
- Определите цель, роль и границы ответственности. Агент выполняет ограниченный набор задач — не «всезнающий» универсал.
- Зафиксируйте в системном промпте запреты и ограничения действий.
- Настройте валидацию входов и выходов, подключите rate limiting.
- Маскируйте персональные и конфиденциальные данные до передачи в LLM.
- Ограничьте доступ к данным и инструментам до минимально необходимого.
- Выделите отдельные сервисные учетные записи с минимальными правами и возможностью быстрого отзыва.
- Настройте Human-in-the-Loop для критических и необратимых операций.
- Логируйте и трассируйте все действия агента и вызовы инструментов
Стандарты безопасности ИИ-агентов формируются прямо сейчас — OWASP Top 10 for Agentic Applications стал первым системным ориентиром. Компании, которые сейчас закладывают стандарты безопасности ИИ-агентов, масштабируют AI быстрее.
Создавайте AI-агентов с безопасностью из коробки — на Just AI Agent Platform. Встроенный модуль Jay Guard маскирует данные, фильтрует контент и защищает от промпт-инъекций, а платформа обеспечивает RBAC, логирование и деплой в контуре заказчика.