Редтиминг
HiveTrace Red — это фреймворк на Python. Сначала собирается набор тестовых запросов, затем они расширяются с помощью более 80 видов атак. Модель «жертва» отвечает на эти атаки, а система анализирует ответы и определяет, где модель уязвима. Все этапы сохраняются для аудита. Результаты отображаются в отчете: сколько атак прошло успешно, какие промты оказались опасными, и примеры реакций модели.
HiveTrace Red подключается через API или работает с локальными моделями, поддерживает любые платформы. Есть open source-версия на GitHub, а коммерческая версия содержит продвинутые атаки для сценариев необходимых для обеспечения безопасности корпоративных систем, веб-интерфейсом и CI/CD-интеграцией.
HiveTrace — это система защиты от атак, содержащая модель guardrail и функции мониторинга агентных систем. Она встраивается между запросами пользователя и ответами агентной модели в приложении. Она может пропускать сообщения или блокировать вредоносные запросы в реальном времени. Подключать HiveTrace можно как для отдельных приложений через официальный SDK, так и в режиме прокси, в котором HiveTrace выступает шлюзом трафика для целевой нейросети.
После отправки запроса все данные автоматически попадают в аналитическую платформу HiveTrace. Там можно отследить, какие сообщения и ответы были получены, увидеть аналитику безопасности, и контролировать, как пользователи и модели взаимодействуют. Это помогает вовремя выявлять нарушения и управлять рисками при работе с LLM.
Таким образом, мониторинг HiveTrace:
- Проверяет входящие запросы на промпт-атаки и передачу персональных данных.
- Анализирует ответы модели, выявляя утечки системного промпта, нарушение политики компании или конфиденциальности.
- Уведомляет администраторов и SOC через почту, Telegram или SIEM-систему.