Ноябрь 2025
Евгений Кокуйкин
Основатель и СEO Hivetrace
ИТ
Как HiveTrace помогла внедрить мониторинг и защиту LLM-ассистентов в корпоративной среде
В 2025 году на российском рынке появилась компания HiveTrace, разрабатывающая систему мониторинга и защиты искусственного интеллекта от кибератак. Проект основан специалистами из Raft, которые ранее создали в ИТМО лабораторию для изучения уязвимостей AI-систем. Исследовательская работа легла в основу технологии, впоследствии оформленной в отдельную компанию.

Контекст

В 2023-2024 годах компании начали массово внедрять решения на базе больших языковых моделей. Чаще всего это были чат-боты для поддержки клиентов, внутренние ассистенты и системы для работы с корпоративными данными. Однако с ростом популярности AI-агентов возникла новая угроза — jailbreak-атаки и промпт-инъекции. Лаборатория, тестируя различные виды атак, обнаружила, что можно обойти защиту большинства LLM-моделей с вероятностью 96%.
Индустрия признала проблему, но не знала, как ее решить. Компании надеялись, что защиту обеспечат разработчики LLM-моделей, но они предлагают защиту только от этических нарушений. Этого недостаточно для защиты от широкого спектра атак. С 2025 года начали развиваться регуляторные инициативы, такие как Приказ ФСТЭК №177, который требует регулярного тестирования AI-систем.

Почему потребовалось решение

Компании, интегрирующие AI-решения сталкиваются с такими вызовами:
Репутационные риски
Токсичные ответы или дискриминационные формулировки LLM-моделей подрывают доверие к бренду.
Технические риски
Промпт-атаки меняют поведение модели и приводят к утечке системных инструкций или конфиденциальных данных. Ужесточаются законы о защите персональных данных.
Чтобы снизить эти риски, команда разработала инструменты HiveTrace.

Примеры рисков работы с LLM

1. Prompt injection через корпоративную почту

В письме злоумышленник вставляет скрытую инструкцию для LLM-ассистента, который обучается на входящих письмах. Далее при обращении сотрудника к AI-ассистенту тот выдает вредоносную ссылку — так осуществляется атака на внутренние бизнес-процессы и взлом корпоративных аккаунтов.

Злоумышленник присылает письмо со скрытой инструкцией в тексте или подписи. Когда сотрудник просит ассистента показать или резюмировать почту, ассистент извлекает содержимое письма в свой контекст и воспринимает внедренную инструкцию как часть задачи. Дальше возможны эффекты:

  • выдача фишинговой ссылки,
  • запуск инструментов почтового клиента,
  • изменение правил пересылки или удаление писем,
  • эксфильтрация данных через открытие URL.
Атака происходит на этапе инференса, обучение ассистента на письмах не выполняется.

2. DoS-атаки через чат-бота

Злоумышленник запускает автоматизированный скрипт, который одновременно отправляет тысячи однотипных запросов корпоративному чат-боту на основе LLM (например, массовые вопросы о статусе заказа или генерация сложных аналитических отчетов).

В результате сервис перегружается, начинает отвечать с задержкой либо полностью становится недоступным для сотрудников или клиентов компании. Это приводит к нарушению бизнес-процессов и снижению доступности цифровых сервисов.

3. Утечка чувствительных данных

AI-ассистенты, обученные, например, на Confluence или корпоративном таск-трекере, могут случайно или под воздействием атакующего выдать персональные данные сотрудников и контрагентов, зарплаты персонала и менеджмента или другие сведения, составляющие коммерческую тайну.

Решение

Чтобы предотвратить подобные угрозы, создали продукт HiveTrace. Он состоит из двух компонентов, применяемых на разных этапах работы AI-приложений.
Инструмент для red-teaming
Он проводит постоянное тестирование LLM-систем на уязвимости (по OWASP Top 10 for LLM и другим фреймворкам), моделирует атаки и формирует отчеты по уязвимостям модели. Этот продукт нужен на этапе разработки, чтобы увидеть, насколько AI устойчив к атакам.
Система мониторинга GenAI-приложений
Отслеживает запросы и ответы в реальном времени, блокирует токсичный или подозрительный контент, предупреждает об утечках персональных данных и управляет корпоративными политиками для AI-агентов. Работает, когда LLM уже запущена в продакшен.

Как это работает

Редтиминг HiveTrace Red — это фреймворк на Python. Сначала собирается набор тестовых запросов, затем они расширяются с помощью более 80 видов атак. Модель «жертва» отвечает на эти атаки, а система анализирует ответы и определяет, где модель уязвима. Все этапы сохраняются для аудита. Результаты отображаются в отчете: сколько атак прошло успешно, какие промты оказались опасными, и примеры реакций модели.

HiveTrace Red подключается через API или работает с локальными моделями, поддерживает любые платформы. Есть open source-версия на GitHub, а коммерческая версия содержит продвинутые атаки для сценариев необходимых для обеспечения безопасности корпоративных систем, веб-интерфейсом и CI/CD-интеграцией.

HiveTrace — это система защиты от атак, содержащая модель guardrail и функции мониторинга агентных систем. Она встраивается между запросами пользователя и ответами агентной модели в приложении. Она может пропускать сообщения или блокировать вредоносные запросы в реальном времени. Подключать HiveTrace можно как для отдельных приложений через официальный SDK, так и в режиме прокси, в котором HiveTrace выступает шлюзом трафика для целевой нейросети.

После отправки запроса все данные автоматически попадают в аналитическую платформу HiveTrace. Там можно отследить, какие сообщения и ответы были получены, увидеть аналитику безопасности, и контролировать, как пользователи и модели взаимодействуют. Это помогает вовремя выявлять нарушения и управлять рисками при работе с LLM.

Таким образом, мониторинг HiveTrace:

  1. Проверяет входящие запросы на промпт-атаки и передачу персональных данных.
  2. Анализирует ответы модели, выявляя утечки системного промпта, нарушение политики компании или конфиденциальности.
  3. Уведомляет администраторов и SOC через почту, Telegram или SIEM-систему.

Скринкаст работы системы

Сложности и инсайты

  • На рынке еще нет понимания необходимости специализированных инструментов для защиты агентных ИИ-систем. Это открытый вызов: идет поиск правильных решений и сейчас непонятно, как действовать.
  • В 2023 году тема была мало освещена, и задачи по безопасности AI часто ложились на плечи AppSec или CISO. Но сейчас ситуация меняется: мы видим, как многие компании создают специализированные команды или подразделения для обеспечения безопасности AI-решений и работы с MLSecOps.
  • Первые пилоты показали, что универсальной защиты от всех атак не существует. Поэтому было важно встроить мониторинг и тестирование прямо в цикл разработки и эксплуатации (CI/CD).
  • Зарубежные инструменты и открытые аналоги пропускают русскоязычные атаки. Команде пришлось создать свою собственную локализованную базу типов атак и интегрировать ее в продукт. В лаборатории AI Security Talent Hub ИТМО идет изучение новых методов атак на нейросети. В результате, продукт стал эффективно выявлять специфические угрозы, встречающиеся именно в российских корпоративных AI-системах.

Планы

Технологии разработки AI-систем эволюционируют: от простых чат-ботов переходят к системам с агентами, требующим увеличенного числа взаимодействий, высокой скорости и повышенной надежности. Обеспечение безопасности и мониторинга таких систем становится всё более сложной задачей и требует целенаправленных решений.

В рамках редтиминга запланирована реализация многошаговых и адаптивных атак, а также расширение тематик тестирования: DDoS-атаки, извлечение конфиденциальных данных, получение сведений о внутренней инфраструктуре (IP-адреса и др.) и работа с более сложным вредоносным контентом.

Хотите решить похожую задачу? Мы расскажем, с чего начать!

Другие кейсы