Как HiveTrace помогла внедрить мониторинг и защиту LLM-ассистентов в корпоративной среде

Ноябрь 2025

Евгений Кокуйкин
Основатель и СEO Hivetrace

ИТ

В 2025 году на российском рынке появилась компания HiveTrace, разрабатывающая систему мониторинга и защиты искусственного интеллекта от кибератак. Проект основан специалистами из Raft, которые ранее создали в ИТМО лабораторию для изучения уязвимостей AI-систем. Исследовательская работа легла в основу технологии, впоследствии оформленной в отдельную компанию.

Контекст

В 2023-2024 годах компании начали массово внедрять решения на базе больших языковых моделей. Чаще всего это были чат-боты для поддержки клиентов, внутренние ассистенты и системы для работы с корпоративными данными. Однако с ростом популярности AI-агентов возникла новая угроза — jailbreak-атаки и промпт-инъекции. Лаборатория, тестируя различные виды атак, обнаружила, что можно обойти защиту большинства LLM-моделей с вероятностью 96%.
Индустрия признала проблему, но не знала, как ее решить. Компании надеялись, что защиту обеспечат разработчики LLM-моделей, но они предлагают защиту только от этических нарушений. Этого недостаточно для защиты от широкого спектра атак. С 2025 года начали развиваться регуляторные инициативы, такие как Приказ ФСТЭК №177, который требует регулярного тестирования AI-систем.

Почему потребовалось решение

Компании, интегрирующие AI-решения сталкиваются с такими вызовами:

Репутационные риски

Токсичные ответы или дискриминационные формулировки LLM-моделей подрывают доверие к бренду.

Технические риски

Промпт-атаки меняют поведение модели и приводят к утечке системных инструкций или конфиденциальных данных. Ужесточаются законы о защите персональных данных.

Чтобы снизить эти риски, команда разработала инструменты HiveTrace.

Примеры рисков работы с LLM

1. Prompt injection через корпоративную почту

В письме злоумышленник вставляет скрытую инструкцию для LLM-ассистента, который обучается на входящих письмах. Далее при обращении сотрудника к AI-ассистенту тот выдает вредоносную ссылку — так осуществляется атака на внутренние бизнес-процессы и взлом корпоративных аккаунтов.

Злоумышленник присылает письмо со скрытой инструкцией в тексте или подписи. Когда сотрудник просит ассистента показать или резюмировать почту, ассистент извлекает содержимое письма в свой контекст и воспринимает внедренную инструкцию как часть задачи. Дальше возможны эффекты:

выдача фишинговой ссылки,
запуск инструментов почтового клиента,
изменение правил пересылки или удаление писем,
эксфильтрация данных через открытие URL.

Атака происходит на этапе инференса, обучение ассистента на письмах не выполняется.

2. DoS-атаки через чат-бота

Злоумышленник запускает автоматизированный скрипт, который одновременно отправляет тысячи однотипных запросов корпоративному чат-боту на основе LLM (например, массовые вопросы о статусе заказа или генерация сложных аналитических отчетов).

В результате сервис перегружается, начинает отвечать с задержкой либо полностью становится недоступным для сотрудников или клиентов компании. Это приводит к нарушению бизнес-процессов и снижению доступности цифровых сервисов.

3. Утечка чувствительных данных

AI-ассистенты, обученные, например, на Confluence или корпоративном таск-трекере, могут случайно или под воздействием атакующего выдать персональные данные сотрудников и контрагентов, зарплаты персонала и менеджмента или другие сведения, составляющие коммерческую тайну.

Решение

Чтобы предотвратить подобные угрозы, создали продукт HiveTrace. Он состоит из двух компонентов, применяемых на разных этапах работы AI-приложений.

Инструмент для red-teaming

Он проводит постоянное тестирование LLM-систем на уязвимости (по OWASP Top 10 for LLM и другим фреймворкам), моделирует атаки и формирует отчеты по уязвимостям модели. Этот продукт нужен на этапе разработки, чтобы увидеть, насколько AI устойчив к атакам.

Система мониторинга GenAI-приложений

Отслеживает запросы и ответы в реальном времени, блокирует токсичный или подозрительный контент, предупреждает об утечках персональных данных и управляет корпоративными политиками для AI-агентов. Работает, когда LLM уже запущена в продакшен.

Как это работает

Редтиминг HiveTrace Red — это фреймворк на Python. Сначала собирается набор тестовых запросов, затем они расширяются с помощью более 80 видов атак. Модель «жертва» отвечает на эти атаки, а система анализирует ответы и определяет, где модель уязвима. Все этапы сохраняются для аудита. Результаты отображаются в отчете: сколько атак прошло успешно, какие промты оказались опасными, и примеры реакций модели.

HiveTrace Red подключается через API или работает с локальными моделями, поддерживает любые платформы. Есть open source-версия на GitHub, а коммерческая версия содержит продвинутые атаки для сценариев необходимых для обеспечения безопасности корпоративных систем, веб-интерфейсом и CI/CD-интеграцией.

HiveTrace — это система защиты от атак, содержащая модель guardrail и функции мониторинга агентных систем. Она встраивается между запросами пользователя и ответами агентной модели в приложении. Она может пропускать сообщения или блокировать вредоносные запросы в реальном времени. Подключать HiveTrace можно как для отдельных приложений через официальный SDK, так и в режиме прокси, в котором HiveTrace выступает шлюзом трафика для целевой нейросети.

После отправки запроса все данные автоматически попадают в аналитическую платформу HiveTrace. Там можно отследить, какие сообщения и ответы были получены, увидеть аналитику безопасности, и контролировать, как пользователи и модели взаимодействуют. Это помогает вовремя выявлять нарушения и управлять рисками при работе с LLM.

Таким образом, мониторинг HiveTrace:

Проверяет входящие запросы на промпт-атаки и передачу персональных данных.
Анализирует ответы модели, выявляя утечки системного промпта, нарушение политики компании или конфиденциальности.
Уведомляет администраторов и SOC через почту, Telegram или SIEM-систему.

Скринкаст работы системы

Сложности и инсайты

На рынке еще нет понимания необходимости специализированных инструментов для защиты агентных ИИ-систем. Это открытый вызов: идет поиск правильных решений и сейчас непонятно, как действовать.
В 2023 году тема была мало освещена, и задачи по безопасности AI часто ложились на плечи AppSec или CISO. Но сейчас ситуация меняется: мы видим, как многие компании создают специализированные команды или подразделения для обеспечения безопасности AI-решений и работы с MLSecOps.
Первые пилоты показали, что универсальной защиты от всех атак не существует. Поэтому было важно встроить мониторинг и тестирование прямо в цикл разработки и эксплуатации (CI/CD).
Зарубежные инструменты и открытые аналоги пропускают русскоязычные атаки. Команде пришлось создать свою собственную локализованную базу типов атак и интегрировать ее в продукт. В лаборатории AI Security Talent Hub ИТМО идет изучение новых методов атак на нейросети. В результате, продукт стал эффективно выявлять специфические угрозы, встречающиеся именно в российских корпоративных AI-системах.

Планы

Технологии разработки AI-систем эволюционируют: от простых чат-ботов переходят к системам с агентами, требующим увеличенного числа взаимодействий, высокой скорости и повышенной надежности. Обеспечение безопасности и мониторинга таких систем становится всё более сложной задачей и требует целенаправленных решений.

В рамках редтиминга запланирована реализация многошаговых и адаптивных атак, а также расширение тематик тестирования: DDoS-атаки, извлечение конфиденциальных данных, получение сведений о внутренней инфраструктуре (IP-адреса и др.) и работа с более сложным вредоносным контентом.

Хотите решить похожую задачу? Мы расскажем, с чего начать!

Оставить заявку

Другие кейсы

Дмитрий Ботов из ИТМО — амбассадор GenAI-изменений

Победитель — доцент в ИТМО, сооснователь AI Talent Hub, Data Science-партнёр в Napoleon IT

Циан и LLM в недвижимости

Автоматизация модерации, звонков и подбора жилья

Timeweb и LLM в техподдержке

Обработка 25% тикетов с GenAI-автоматизацией