Как Росгосстрах построил речевую аналитику на open-source и покрыл 100% звонков

Поделиться кейсом

Generation AI Awards

Фрэнк Шихалиев

Куратор ИИ-проектов RGS Lab

Финансы

Как Росгосстрах построил речевую аналитику на open‑source и покрыл 100% звонков

Росгосстрах — один из крупнейших страховщиков России, работает в 85 регионах, обслуживает 17 млн частных и 300 тысяч. корпоративных клиентов. В штате — 50 000 сотрудников и 25 000 страховых агентов. Контакт-центр принимает около 15 000 звонков ежедневно.

TLDR

Контакт-центр Росгосстраха принимает 15 000 звонков в день, но служба контроля качества могла прослушать только 1% из них. Команда построила внутреннюю систему речевой аналитики на базе open-source решений.

 

Результат: 100% звонков под контролем, критичные инциденты обрабатываются за час, а скрытые проблемы клиентов впервые стали видимыми.

Проблема: 15 000 звонков в день и лишь 1% под контролем

В Росгосстрахе не было речевой аналитики. Служба контроля качества прослушивала звонки выборочно — примерно 1% от потока. На основе этой выборки проводили обучение операторов и делали заключения о качестве.

 

Задачу сформулировали так: транскрибировать все звонки, извлекать ценную информацию и на ее основе менять бизнес-процессы. Совместно с подразделениями составили список из 100+ параметров для анализа:

 

Тип параметров Примеры
Базовые Приветствие, завершение разговора, обращение по имени
Качество коммуникации Негативная лексика, сленг
Обработка обращений Реакция на возражения, фразы амортизации
Критичные триггеры Жалобы в госорганы (ЦБ и другие)
Страховая специфика Отраслевой сленг, специфические ситуации

 

Почему не вендор: собственная разработка за месяц

Open-source модели для распознавания речи сильно выросли в качестве, а генеративные инструменты ускорили саму разработку. Команда собрала рабочий прототип за несколько дней — он сразу показал результаты, и решение «доводить до продакшена» приняли быстро.

 

Для транскрибации сначала взяли Turbo Whisper от OpenAI. Позже появились российские речевые модели — GigaAM и другие — с коммерческими лицензиями и сопоставимым или лучшим качеством. Команда протестировала их и переключилась.

 

Таймлайн проекта:

 

Лето 2025 → прототип за несколько дней

Через месяц → первый работающий продакшен, транскрибация запущена

До декабря 2025 → улучшения, расширение отчетов и аналитики

Пайплайн: от записи до бизнес‑решения в четыре шага

Шаг 1. Запись. Система телефонии записывает звонки и складывает в хранилище.

 

Шаг 2. Транскрибация. Open-source Speech-To-Text-модели автоматически переводят аудио в текст. Дообучение не потребовалось — модели работают из коробки.

 

Шаг 3. LLM-анализ. Каждый транскрибированный звонок проходит через цепочку из 100+ промптов и получает оценку по всем параметрам.

 

Шаг 4. Действие. Два режима на выходе:

 

Режим Что анализирует Скорость Зачем
Batch Все параметры, статистика, оценки операторов На следующий день Контроль качества, анализ работы операторов
Real-time Критичные триггеры (жалобы в ЦБ и другие госорганы) Мгновенно Немедленная реакция на проблемы клиентов, чтобы ее решить

 

Batch-аналитику смотрят раз в несколько дней перед совещаниями — переносить все в real-time нет смысла, это лишняя нагрузка на ресурсы. А вот критичные триггеры работают мгновенно: система автоматически рассылает уведомления заинтересованным лицам, и служба клиентского сервиса подключается к решению вопроса.

 

Если средний балл звонков проседает, система показывает, у какого оператора и по каким параметрам.

100+ промптов вместо дообучения: как устроен анализ

Для анализа текста команда написала больше 100 многоуровневых промптов с нуля, каждый под конкретный параметр оценки.

 

Ключевое решение — многоуровневые цепочки промптов. Команда использует не тяжелые модели с развитой способностью к рассждению, а более легкие. Поэтому сложную задачу разбивают на последовательность простых шагов: каждый промпт решает одну узкую подзадачу и передает результат следующему.

 

Как это работает:

 

  1. Сжатие. Звонок может быть длинным, и отправлять всю расшифровку в один промпт неэффективно. Первый уровень извлекает из звонка наиболее важные фрагменты диалога.
  2. Поиск паттернов. Второй уровень работает уже с этой выжимкой и ищет конкретные вещи: сколько жалоб было, сколько позитивных моментов, использовал ли оператор нужные фразы.
  3. Выход. По каждому параметру — структурированный ответ, который попадает в отчет.

 

Обратная сторона — накопление ошибки: чем больше уровней, тем ниже итоговая точность.

 

Помимо универсальных параметров (приветствие, завершение, негативная лексика), есть промпты с учетом страхового сленга и специфических ситуаций отрасли.

 

 

Пример 1: спросил ли оператор имя клиента

 

Двухуровневая цепочка. Первый промпт определяет факт, второй проверяет формулировку на соответствие корпоративному стандарту.

Промпт 1 — определение факта:

 

Твоя задача — проанализировать диалог оператора и клиента и понять, спросил ли оператор имя клиента.

 

Оператор может спросить имя по-разному, например:
Как я могу к вам обращаться? Как вас зовут? Как ваше имя?

 

ИНСТРУКЦИЯ:

1. Проанализируй диалог.

2. Если оператор спросил имя клиента, напиши:
{«answer»: «да», «phrase»: «текст вопроса оператора без изменений»}

3. Если оператор забыл спросить имя, напиши:
{«answer»: «нет», «phrase»: «-«}

Промпт 2 — проверка по стандарту:

 

Определи, соответствует ли входной текст шаблону:

«Как я могу к вам обращаться?»

 

ПРАВИЛЬНО (похожи на шаблон):

— Скажите, пожалуйста, как могу к вам обращаться?

— Подскажите, как мне вас называть?

 

НЕПРАВИЛЬНО (отличаются от шаблона):

— Как вас зовут?

— Ваше имя?

— Назовите ваше имя

— Представьтесь, пожалуйста

 

Если текст похож на шаблон — напиши: да

Если отличается — напиши: нет

 

Зачем два уровня: первый промпт ловит сам факт (спросил или нет), второй различает формулировки — «как я могу к вам обращаться?» и «как вас зовут?» по-разному соответствуют корпоративному шаблону.

Пример 2: обработка возражений клиента

 

Тоже двухуровневая цепочка: сначала классификация звонка, потом оценка качества реакции оператора.

Промпт 1 — классификация:

 

Проанализируй диалог оператора и клиента и ответь:
обратился ли клиент с возражением (претензией, жалобой, проблемой)?

 

Если клиент выражает возражение — напиши: претензия
Если обычная консультация — напиши: консультация

 

Выбери только один вариант.

Промпт 2 — оценка качества (запускается, если промпт 1 вернул «претензия»):

 

Оцени, как оператор обработал возражение клиента. Три варианта:

 

1. Корректно обработано — оператор внимательно отнесся к проблеме,
извинился, использовал фразы амортизации:

«От имени компании приношу извинения»,

«Со своей стороны сделаю все возможное, чтобы решить вопрос»,

«Я понимаю важность вашей проблемы и постараюсь вам помочь»

 

2. Отсутствует амортизация — оператор попытался помочь,
но не извинился и не использовал фразы смягчения.

 

3. Проигнорировано — оператор полностью проигнорировал возражение,
не предложил альтернативы и не извинился.

 

Выбери один вариант и больше ничего не пиши.

Второй промпт запускается только при наличии претензии — на обычных консультационных звонках оценка качества обработки возражений не нужна.

Что нашли в данных: 15 критичных жалоб каждый день

Когда система заработала на всем потоке, обнаружились вещи, которые раньше были невидимы.

Бизнес-кейс: лишний документ. Через анализ оценок CSI выявили, что клиенты недовольны требованием предоставлять дополнительные документы в одном из процессов. Обсудили внутри, убрали требование — проблема исчезла. Без аналитики этот паттерн тонул в 15 000 ежедневных звонков.

Результаты

  До После
Покрытие звонков 1% вручную 100% автоматически
Реакция на критичные инциденты Не реагировали В течение 1 часа
Видимость проблем Известно, что есть, но где — непонятно Конкретные паттерны с фильтрацией
Оценка операторов Невозможно оценить весь поток Видно, кто проседает и по каким параметрам

Честно о точности: простые vs сложные метрики

Что измеряли Результат Комментарий
WER транскрибации 0,23 Word error rate — доля ошибок в распознавании слов
Простые параметры 90-95% Высокая точность на однозначных критериях
Сложные комбинированные 60-70% Накопление ошибки на каждом этапе цепочки промптов

 

Закономерность: чем больше уровней анализа нужно пройти, тем заметнее накапливается погрешность. Команда продолжает работать над повышением точности сложных метрик.

Что дальше: real‑time для всех звонков

Основной челлендж — сократить задержку аналитики звонков до минимума, чтобы информация была доступна сразу после звонка, а не на следующий день. Это требует другого подхода к GPU-нагрузке: помимо добавления серверов, команда исследует более эффективные инференс-модели. Параллельно планируют расширять бизнес-сценарии. 

Если вы думаете о внедрении речевой аналитики или AI-анализа клиентских обращений — команда Just AI помогает пройти путь от задачи до первого пилота

Оставить заявку на консультацию