Безопасность ИИ-агентов: угрозы и практики защиты

Поделиться кейсом

Generation AI Awards

Анастасия Хорунжина

Продакт-менеджер Jay Guard

Безопасность ИИ‑агентов: угрозы и способы защиты

По данным Gartner, к концу 2026 года в 40% корпоративных приложений будут внедрены AI-агенты — годом ранее их было менее 5%. Каждый агент принимает решения, вызывает API, работает с базами данных и CRM — и создает новые точки входа для атак.

 

Проблему уже признают на уровне индустрии: OWASP — международное сообщество, которое формирует стандарты безопасности приложений, — посвятило агентам отдельный фреймворк Top 10 for Agentic Applications с десятью категориями угроз. В статье мы сгруппировали их в пять верхнеуровневых блоков и для каждого разобрали меры защиты. Такой подход поможет начать выстраивать безопасность ИИ-агентов последовательно: от входных данных до инфраструктуры.

Пять рисков агентных систем

Разберем основные категории угроз, с которыми сталкиваются агентные системы в продакшене.

 

Манипуляции входными данными

 

Агентные системы принимают данные от пользователей, внешних сервисов и других агентов. Злоумышленник может встроить в эти данные инструкции, которые изменят логику работы агента — обойдут ограничения, заставят игнорировать правила безопасности или подменят цели. Именно так работают промпт-инъекции, jailbreak-атаки и манипуляции контекстом.

Промпт-инъекции — угроза №1 в OWASP Top 10 for Agentic Applications 2026

Утечка и раскрытие данных

 

Агент обрабатывает персональные данные, коммерческую тайну, внутренние документы. При отсутствии ограничений он может вернуть чувствительную информацию пользователю, передать ее во внешний сервис или сохранить в логах. Риск особенно высок при работе с длинным контекстом, памятью агента и многошаговыми сценариями: в них сложнее отследить утечку. А без защиты от prompt injection агент может раскрыть данные даже в ответ на замаскированный запрос.

77% сотрудников enterprise-компаний хотя бы раз отправляли корпоративные данные в AI-чат. В 22% случаев — конфиденциальные персональные или финансовые данные, — LayerX, Enterprise AI & SaaS Data Security Report 2025

Злоупотребление инструментами

 

Платформы предоставляют агентам доступ к API, базам данных, файловым системам, почте, CRM. При неправильной настройке агент может вызвать критичные операции без подтверждения или использовать инструменты не по назначению. Без строгих политик действий риски ИИ-агентов растут вместе с их автономностью: одно некорректное решение с широкими полномочиями может обернуться серьезным ущербом.

 

 

Риски интеграций и цепочки поставки

 

Если внутренние инструменты можно настроить и контролировать, то внешние зависимости — API, плагины, SDK, источники данных — создают риски, которые сложнее отследить. Уязвимости или компрометация любого из этих компонентов могут привести к подмене данных или выполнению вредоносных инструкций через доверенные каналы. Особую сложность создают динамически подключаемые инструменты и непроверенные источники данных: они появляются в системе быстро, а обнаруживаются как точки входа уже после инцидента.

 

 

Операционные и инфраструктурные риски

 

Даже корректно настроенный агент остается уязвимым, если не выстроен контроль на инфраструктурном уровне: управление API-ключами и токенами, доступы операторов и администраторов, логирование чувствительных данных, мониторинг и аудит действий. Это также влияет на безопасность автономных ИИ-агентов и чаще всего остается вне зоны ответственности команды, которая запускает агентов.

Количество публичных AI-инцидентов выросло на 56% за 2025 год. Большинство связаны не с моделью, а с окружением, — Stanford HAI, 2025 AI Index Report

Все пять категорий рисков усиливаются по мере роста автономности агента, количества интеграций и объема обрабатываемых данных.

Как защитить агента: пять направлений

Основа защиты агентных систем — принцип least privilege, один из фундаментальных в информационной безопасности. OWASP адаптировал его для агентных систем как least agency: контроль доступа ИИ-агентов строится на минимальной автономности, необходимой для решения задачи. Этот принцип охватывает четыре направления защиты — вход и выход, логику, данные, инструменты агента.

 

Пятое направление — инфраструктура — технически выходит за рамки least agency, но даже корректно настроенный агент остается уязвимым, если инфраструктурный слой вокруг него не защищен.

Рассмотрим каждое направление защиты подробнее.

 

 

Вход и выход агента

 

Цель:

 

Предотвратить манипуляции поведением агента и небезопасный вывод данных.

 

Решение:

 

  1. Анализируйте входящие запросы автоматически. Настройте автоматический анализ для выявления промпт-инъекций, jailbreak-атак и других попыток манипуляции поведением агента. Такие механизмы позволяют обнаруживать попытки изменения роли агента, обхода ограничений или внедрения управляющих инструкций в пользовательский ввод и данные из внешних источников.
  2. Валидируйте и нормализуйте входные данные на каждом шаге агента. Задавайте и проверяйте формат входных параметров через функции или код валидации входных параметров.
  3. Ограничивайте частоту и объем запросов. Настройте rate limiting на уровне конфигурации агентной платформы для предотвращения злоупотреблений.
  4. Не доверяйте выводам LLM напрямую. Валидируйте структуру ответов агента и проверяйте вывод перед отображением или передачей во внешние системы.
  5. Фильтруйте выходные данные агента. Применяйте контент-фильтрацию к ответам агента, чтобы исключить генерацию небезопасного контента.
  6. Проверяйте структуру ответов перед передачей. Выделите агент-контроллер — отдельный шаг, который валидирует формат и допустимые значения выходных данных до отправки во внешние системы.
  7. Контролируйте результаты вручную. Предусмотрите проверку выходных данных человеком перед передачей во внешние системы.

 

 

Логика и контроль принятия решений

 

Цель:

 

Исключить выполнение агентом действий, противоречащих его назначению и политикам безопасности.

 

Решение:

 

  1. Усильте системный промпт. Четко определите роль, цели и ограничения агента в системных инструкциях. Явно запрещайте действия, выходящие за рамки его функциональной ответственности.
  2. Ограничьте универсальность. Используйте специализированных агентов вместо одного «всезнающего».
  3. Отслеживайте действия агента. Например, Just AI Agent Platform и Jay Guard логируют данные о запусках агентов и вызовах инструментов. Для анализа логов и мониторинга поведения ИИ-агента подключайте ИТ и/или ИБ-службы.

 

 

Данные и контекст

 

Цель:

 

Снизить риск утечек, отравления данных и несанкционированного доступа к знаниям.

 

Решение:

 

  1. Обеспечьте гранулярный контроль. Настраивайте доступ агентов к базам данных и источникам знаний на основе ролей и целей агента. Агент должен иметь доступ только к тем данным, которые ему нужны для выполнения задачи и только к необходимым операциям (например, чтение без записи).
  2. Исключите передачу в LLM чувствительной информации. На уровне средств контроля безопасности можно использовать настроенные политики маскирования и фильтрации данных. Например, Jay Guard автоматически выявляет и маскирует персональные и чувствительные данные в соответствии с правилами, заданными на уровне компании, до передачи данных в LLM. Дополнительно можно применять пользовательские функции или код проверки для предобработки данных перед передачей в модель.
  3. Контролируйте целостность и происхождение данных. Используйте централизованные и управляемые хранилища данных для документов и знаний, подключаемых к RAG. Исключайте автодобавление непроверенных данных в базы знаний, классические инструменты контроля целостности, версионирования и мониторинга изменений данных. Ограничивайте возможность изменения данных и отслеживайте, кто и когда вносил изменения. Фиксируйте источники данных, используемые агентом, для последующего анализа и аудита и проверяйте источники данных и базы знаний на предмет отравления данных и несанкционированных изменений.

 

 

Инструменты и действия

 

Цель:

 

Предотвратить злоупотребление доступом к инструментам и внешним системам.

 

Решение:

 

  1. Давайте минимум привилегий. Определяйте набор инструментов и API исходя из целей конкретного агента. Исключайте предоставление избыточного доступа «на всякий случай». Регулярно пересматривайте список доступных инструментов по мере изменения задач агента.
  2. Изолируйте учетные записи. Создавайте отдельные сервисные учетные записи для агентов — не используйте аккаунты сотрудников. Между агентами передаются только бизнес-данные, но не секреты, ключи или токены.
  3. Внедрите Human-in-the-Loop. Для критических и необратимых операций предусматривайте подтверждение человеком.

 

 

Инфраструктура

 

Цель:

 

Обеспечить управляемость, наблюдаемость и устойчивость агентной системы.

 

Решение:

 

  1. Обеспечьте безопасность цепочки поставок (Supply Chain Security). Используйте только доверенные и проверенные модели, библиотеки и компоненты, сканируйте зависимости и контейнерные образы на наличие известных уязвимостей. Фиксируйте версии критичных компонентов и контролируйте их обновление. Ограничивайте использование непроверенных сторонних SDK, плагинов и инструментов.
  2. Контролируйте потребления ресурсов и расходов, связанные с вызовами LLM и инструментов. Настройте лимиты на количество токенов и вызовов, отслеживайте аномальные паттерны потребления — они могут сигнализировать о компрометации агента или нецелевом использовании.

 

Агентные платформы корпоративного уровня закрывают часть задач безопасности AI agents архитектурно. Just AI Agent Platform включает RBAC, логирование действий агентов, лимиты на токены и вызовы, деплой в контуре заказчика.

С чего начать: безопасность на двух уровнях

Безопасность агентных систем выстраивается на уровне бизнеса и на уровне проектирования отдельного агента. Описали оба подхода в чек-листах, чтобы можно было двигаться по шагам и ничего не упустить.

 

 

Чек-лист: безопасность на уровне организации

 

  • Определите роли и ответственность за безопасность AI-агентов (IT / ИБ / продукт).
  • Утвердите корпоративные политики: работа с данными, управление доступами, допустимый уровень автономности агентов.
  • Внедрите обязательный security-review при запуске новых агентов или существенных изменениях в логике существующих.
  • Проводите регулярные red-teaming и adversarial-тесты агентных сценариев.
  • Настройте централизованное логирование и мониторинг работы агентов, подключите к мониторингу службы ИБ и/или IT.
  • Определите процесс реагирования на инциденты, связанные с агентами.
  • Проводите периодический аудит агентов (доступы, инструменты, данные, цели).
  • Используйте утвержденные и проверенные модели, SDK и зависимости.
  • Обучите сотрудников, проектирующих агентов, основным рискам agentic-систем и мерам их снижения.

 

Чек-лист: безопасность на уровне проектирование агента

 

  • Определите цель, роль и границы ответственности. Агент выполняет ограниченный набор задач — не «всезнающий» универсал.
  • Зафиксируйте в системном промпте запреты и ограничения действий.
  • Настройте валидацию входов и выходов, подключите rate limiting.
  • Маскируйте персональные и конфиденциальные данные до передачи в LLM.
  • Ограничьте доступ к данным и инструментам до минимально необходимого.
  • Выделите отдельные сервисные учетные записи с минимальными правами и возможностью быстрого отзыва.
  • Настройте Human-in-the-Loop для критических и необратимых операций.
  • Логируйте и трассируйте все действия агента и вызовы инструментов

 

 

Стандарты безопасности ИИ-агентов формируются прямо сейчас — OWASP Top 10 for Agentic Applications стал первым системным ориентиром. Компании, которые сейчас закладывают стандарты безопасности ИИ-агентов, масштабируют AI быстрее.

 

Создавайте AI-агентов с безопасностью из коробки — на Just AI Agent Platform. Встроенный модуль Jay Guard маскирует данные, фильтрует контент и защищает от промпт-инъекций, а платформа обеспечивает RBAC, логирование и деплой в контуре заказчика.