Главная
Кейсы
Аспирити и голосовой AI-тренажер для фармы

Апрель 2026

Алексей Носов

CPO Аспирити и PICHI AI

Как Аспирити создали для фармы AI‑тренажер со скептичным виртуальным врачом

Аспирити — российская AI-компания, специализирующаяся на голосовой аналитике и голосовых тренажерах для бизнеса. EGIS — фармацевтическая компания с более чем 100-летней историей, в портфеле которой более 50 препаратов. Половина ассортимента входит в перечень жизненно необходимых и важнейших лекарственных препаратов.

TL;DR

Аспирити разработали голосовой AI-тренажер для торговых представителей EGIS: сотрудники отрабатывают визиты к врачам, которые возражают, торопятся и задают неудобные вопросы про конкурентов. Главная инженерная задача оказалась неожиданной — LLM по природе хочет помогать, а не оппонировать, и это потребовало отдельной архитектуры с управлением контекстом в реальном времени.

Результат: NPS пилота 85%, корреляция AI-оценки с оценкой живого эксперта — 0.84, масштабирование с 20 до 200 сотрудников.

Врач не торопится менять привычки: почему представителям фармкомпании нужен тренажер

Представители фармацевтической компании — это люди, которые ежедневно встречаются с врачами, чтобы продвигать препараты и новые методы лечения. У таких встреч жесткие условия: времени мало, нормативные требования строгие, а врач — сложный собеседник с устоявшимися схемами лечения, от которых он не торопится отказываться.

Раньше единственный способ тренироваться — отрабатывать речь с коллегой в офисе. Но коллега в офисе не ведет себя как настоящий врач: он не будет делать вид, что торопится, не будет задавать неудобных вопросов про конкурентов, не будет скептически смотреть на новый препарат.

Аспирити и EGIS придумали решение: дать каждому сотруднику цифровой тренажерный зал, в котором можно отрабатывать реальные ситуации в любое время и на любом устройстве.

Как устроен тренажер: каскадная модель и видео‑аватар

Технически тренажер построен на классической цепочке из трех моделей.

STT (Speech-to-Text) расшифровывает голос сотрудника в текст.
LLM — мозг системы — ведет диалог от лица врача.
TTS (Text-to-Speech) синтезирует голос и отвечает собеседнику.

Три модели работают в связке и симулируют естественный разговор. Сотрудник видит перед собой видео-аватар врача, получает описание ситуации и начинает диалог. Сценарии настраиваются под конкретные задачи: открытие визита, отработка барьеров, сбор обратной связи.

Скриншот интерфейса тренажера

После каждой тренировки агент-оценщик на базе большой языковой модели разбирает диалог — говорит, что прошло хорошо, что можно улучшить, — так, как это сделал бы старший ментор, который знает все про препараты, нормативные требования и правила ведения беседы. У менеджеров есть отдельная панель аналитики: кто тренируется, кто отстает, кто показывает лучшие результаты — в разрезе команд и регионов.

Панель аналитики для команды

Первая версия не работала: почему LLM не умеет быть занудой

На первый взгляд задача кажется простой: загрузить все данные о препаратах и попросить модель играть роль скептичного врача. Аспирити загрузили тысячи страниц инструкций, скрипты и методологические материалы от EGIS — и получили слишком вежливого собеседника.

Диалог выглядел примерно так:

— «Расскажу вам про наш препарат»

— «О, как интересно! Пожалуйста, продолжайте, я весь внимание!»

Но в реальности так врачи не говорят. Поэтому Аспирити пошли в поля — к настоящим врачам, чтобы понять, как на самом деле они общаются.

День в полях: как команда поняла, как говорит настоящий врач

Бизнес-аналитик Аспирити провел целый день с представителем EGIS — наблюдал за встречами, записывал мысли в блокнот. Именно там стало понятно, как на самом деле ведет себя врач: уводит разговор в сторону, жалуется на пациентов, говорит «помедленнее, я записываю», торопится, потому что следующий пациент ждет. Или слышал что-то нехорошее про конкурента и не хочет это скрывать.

Живое погружение в домен дало то, чего не давали тысячи страниц инструкций: понимание настоящего поведения врача, которое нужно воспроизвести в модели.

Научить AI быть полезным — легко, научить быть занудой — челлендж.

Чертик на плече: архитектура, которая удерживает LLM в роли оппонента

Понять поведение врача — половина задачи. Нужно было сделать так, чтобы модель могла воспроизводить это поведение на протяжении всего разговора, который длится 10-20 минут.

Сначала попробовали написать в инструкции «будь скептичным врачом» ил ввести явные запреты вроде «не помогай», «не соглашайся сразу». Модель держалась несколько реплик, потом неизбежно сбивалась в режим ассистента.

Причина оказалась в природе самой модели: чем длиннее диалог, тем больше контекста — и тем естественнее для LLM начать объяснять и помогать, ведь именно для этого она обучена.

Пример диалога

Решение — архитектура «чертика на плече»: рядом с основной языковой моделью работает отдельная маленькая SLM (1B параметров), которая слушает весь контекст диалога и по заранее заданным событиям добавляет нужные сигналы прямо в контекст основной модели.

События могут быть разными: N-я реплика в диалоге, появление в контексте названия компании или препарата. В зависимости от события SLM добавляет заданную формулировку — «У меня скоро обед», «Слышал что-то нехорошее про этот препарат» — и следующая реплика основной языковой модели выходит уже с учётом этого контекста.

«Если мы хотим, чтобы LLM вела себя не так, как задумано изначально, — нам нужно подходить к этому, как к отдельной архитектурной задаче. И если мы хотим добиться от модели того, что при ее разработке не задумывалось, мы пользуемся методами хакинга для того, чтобы этого достичь», — Алексей Носов, CPO Аспирити.

Распознавание речи в сложном домене: дозировки, препараты и английские слова там, где их не ждали

Проработка голосовой части тоже принесла набор сложностей.

Дозировки и составные числа

Сотрудник говорит «один двадцать пять» — и STT расшифровывает это как три отдельных числа: 1, 20 и 5.

Решение — дать модели контекст: когда речь идет о дозировках, числа всегда форматируются с точкой (1.25). Простое правило устраняет разночтения.

Названия препаратов

Deepgram — популярный движок распознавания речи — расшифровывает «Залаин» как «The Lain». В контексте LLM появляются латинские буквы, и через несколько реплик модель переключается на английский язык.

Решение — задание контекста: когда разговор идет о тревожности, речь, скорее всего, о Грандаксине или Велаксине. Когда об антигрибковой терапии — о Залаине или Экофуцине. Достаточно умная LLM восстанавливает правильное название даже по частично искаженной расшифровке — потому что окружающий контекст ей понятен.

Синтез речи: почему «ставь ударение на второй слог» не работает

С синтезом голоса возникла другая проблема: синтезатор произносил названия препаратов с неправильными ударениями. Команда пробовала очевидные инструкции — «ставь ударение на второй слог», «ставь на букву И», «ставь на букву с апострофом» — ни одна не давала стабильного результата.

Решение нашлось через фонетические правила. Вместо инструкций об ударении — прямая транскрипция:

Грандаксин → гран-да-ксиин
Велаксин → ве-ла-ксиин
Алзепил → алл-зээ-пилл

Удвоение нужной буквы создает ударение. Выглядит как костыль, однако работает стабильно. И что важнее: такие правила можно менять прямо в инструкциях к модели, без нового релиза. В сложных доменах, где новые препараты появляются постоянно, возможность полировать поведение без выкатывания релиза ускоряет цикл разработки.

Система построена на мультимодельной архитектуре: в зависимости от задачи используются разные модели, что дает независимость от конкретного поставщика и возможность быстро переключиться при необходимости.

Как меняется речевая аналитика: от панелей с цифрами к ответам на бизнес‑вопросы

В продукте Аспирити намеренно уходят от больших панелей с абстрактными метриками, для интерпретации которых нужен отдельный аналитик. Цель — отвечать напрямую на бизнес-вопрос: кто из сотрудников продает здорово, а кому нужно подтянуть навыки.

И главное: видеть проблему до того, как сотрудник не выполнил план — по тому, как он тренируется, а не по результатам в конце квартала.

Результаты пилота на 20 сотрудниках EGIS

85%

NPS пилота — сотрудники хотят пользоваться продуктом

0.84

Корреляция оценки AI с оценкой живого эксперта

С 20 до 200

Масштабирование базы сотрудников

Итоги

Опыт Аспирити и EGIS показывает, что погружение в домен + prompt engineering решает 80-90% проблем при работе с LLM. Это значит, что обучать свою модель с нуля не обязательно: ChatGPT, DeepSeek, Claude справляются, если подойти к настройке правильно.

При это поддержка образа оппонента в длинном диалоге — отдельная архитектурная задача, а управлять поведением модели через встраивание инструкций в контекст в таких сценариях — рабочая практика.

Если вы думаете о внедрении AI в свои бизнес-процессы — команда Just AI помогает пройти путь от задачи до первого пилота: выбрать архитектуру, проработать домен и избежать типичных ошибок

Другие кейсы

2ГИС и AI во внутренних процессах

От MVP с тремя пользователями до тысячи сэкономленных часов

Skyeng и генерация персонализированных уроков

Генерация 900 тысяч уроков в месяц и рост вовлеченности учеников

Nedra Digital и AI в геологоразведке

Синтетические аэрофотоснимки для геологоразведки