Как Т-Банк научил AI-агента работать в топ-3 операторов и автоматизировать 60% обращений

25 и 26 июня Кейсы, инсайты и лучшие практики GenAI от Авито, Т-Банка, Норникеля, S7, MWS AI, hh.ru и других экспертов на Conversations. Повышение цен с 15 июня!

Купить билет

Поделиться кейсом

Generation AI Awards

Дмитрий Битман

Product Lead AI центра Т-Банка

Финансы

Как т‑банк научил ai‑агента работать в топ‑3 операторов и автоматизировать 60% обращений

Т-Банк — финансовая онлайн-экосистема, объединяющая полный спектр финансовых услуг для частных лиц и бизнеса с 50+ млн клиентов и активами под управлением 6,15 трлн рублей.

TL;DR
Т-Банк создал AI-агента, который работает в тех же интерфейсах, что и люди, через подход computer use. Система записывает действия операторов, обучает на них модель, тестирует в режиме co-pilot и запускает автономно.

 

Результат: AI-агент автоматизировал 60% трафика, получил 98 баллов по качеству работы (против 94 у людей) и вошел в топ-3 среди 50 операторов.

Масштаб диктует сложность: сложности операционки

В Т-Банке десятки тысяч сотрудников работают над операционными задачами: поддержка клиентов, продажи услуг, взыскание долгов. Операционных процессов здесь десятки тысяч, и они постоянно меняются. При этом компания должна обеспечивать бесперебойную работу в системах, где люди и технологии работают вместе.

 

Чат-боты решают часть задач, связанных с поддержкой клиентов, но большая доля обращений все равно попадает на операторов. При этом оператор — не просто человек, который отвечает клиенту: он работает в интерфейсах — проверяет данные, нажимает кнопки, заполняет поля, следует скриптам, принимает решения.

 

Т-Банк задался вопросом: что, если AI-агент сможет делать то же самое — не просто отвечать в чате, а работать в системах как человек?

Философия подхода computer use: AI‑сотрудник, который напрямую учится у людей и работает совместно с ними

Computer use означает, что AI-агент работает прямо в интерфейсе оператора: видит то же, что видит человек на экране, нажимает те же кнопки, вводит те же данные.

 

Вместо того чтобы строить отдельные автоматизации для каждого процесса, Т-Банк создал систему, которая учится работать так же, как учатся люди — смотреть и повторять.

 

Выбор UI вместо API обоснован практически: оператор легко оценивает правильность действий модели в знакомой рабочей системе, тогда как разметить правильность вызова API он бы не смог. Кроме того, рабочая система уже содержит защиту от ошибок, и агент наследует ее.

Если люди решают задачи — можно обучить и AI-агента это делать. Не нужно строить отдельную автоматизацию для каждого процесса.

Proof of concept: как выбирали первый домен

Для proof of concept выбрали отдел реструктуризации долгов — это скриптовый домен первого уровня сложности, то есть внутри процесса один или малое количество скриптов, отклонений мало.

 

Задача — проверить, сработает ли подход, прежде чем масштабировать на сложные процессы.

 

Для контекста — демо платформы со встроенным ассистентом:

Пять шагов от траекторий до автономии AI‑агента

Шаг первый: записать, как работают люди

 

Операторы работают как обычно и ничего не видят, а система записывает их действия в интерфейсе: нажал сюда, написал это, выбрал то.

 

В формате JSON фиксируется состояние экрана и каждое действие оператора, и банк получает 500 тысяч строк датасета каждый день — постоянно актуализируемую базу знаний о том, как реальные люди решают задачи.

Устройство AI-агента

Шаг второй: обучить модель повторять действия

 

На собранных траекториях обучают модель в формате вопроса: «Вот это на экране — что нужно сделать?»

 

Команда начала с foundation-моделей из коробки, но промптинг ChatGPT давал точность около 30% — для базовых действий вроде клика на кнопку модели справляются, однако на тонкостях (чем кредит отличается от рассрочки, в каких случаях какая кнопка) модели путаются. Модель Т-Банка почти сразу показала результат выше 50%.

 

Решением стало дообучение: T-Pro на 32 миллиарда параметров с доменной адаптацией и SFT (supervised fine-tuning), обученная на всей поддержке банка — все термины, специфика траекторий, доменные знания.

 

Точность на офлайн-метриках (попадание в действия оператора) — 88%.

 

 

Шаг третий: проверить в режиме co-pilot

 

Обученную модель запустили в режиме co-pilot: оператор работает в своей системе, но видит подсказку — что модель предлагает сделать дальше. Одной кнопкой можно принять или отклонить и сделать по-своему.

 

Система постоянно собирает обратную связь — сколько процентов подсказок оператор принял. В домене реструктуризации операторы принимали больше 85% подсказок.

 

Но ключевая метрика — «идеальные сессии»: когда оператор от начала до конца просто нажимал «принять». Таких сессий оказалось более 50%, что означает: модель готова работать автономно на этих сценариях.

Пример подсказки от модели

Шаг четвертый: научить модель отличать, где она готова

 

На идеальных сессиях обучили отдельную модель — энейблер, который смотрит на входящее обращение и определяет: AI уже все выучил и может работать сам, или это сложный случай для человека. Так система сама разделяет трафик между автоматизацией и живой консультацией.

 

Шаг пятый: запустить автономных агентов

 

Запустили 5 экземпляров Афанасия в Kubernetes — каждому завели учетки в системе, как обычным сотрудникам, с теми же доступами и ограничениями. Технически: на машине стоит клиент, который снимает состояние рабочей системы, отправляет на бэкенд, получает от модели ответ «Что делать?» и выполняет действие.

 

Все сложные случаи автоматически переводятся на co-pilot, и люди продолжают генерировать разметку для дообучения — система замкнулась в петлю обратной связи.

 

Афанасий оказался так похож на обычного оператора, что в системах его от людей не отличали — как рассказывает руководитель проекта, «наши сотрудники так похожи на людей, что ничем не отличаются во всех системах, даже пытались выплатить премию Афанасию, начали искать, кому оплатить, и не нашли».

Первые результаты: когда AI‑агент попадает в топ‑3 сотрудника

В production агент автоматизировал 60% трафика — дополнительно к чат-боту, который был и остался. По результатам А/Б теста экономия составила 40% времени операторов.

 

Качество работы оценивали слепо: диалоги агента отправляли тем же разметчикам и контролерам, которые проверяют людей, по тем же формам.

 

Вначале контролеры не знали, что Афанасий — агент, потом узнали, но продолжили оценивать по тем же критериям.

 

Результат: 98 баллов по 100-балльной системе (средняя оценка людей — 94), топ-3 среди примерно 50 операторов.

Масштабирование на сложные домены: где система дает сбой и как это чинить

После реструктуризации Т-Банк перешел к поддержке клиентов мобильного оператора — задача второго уровня сложности (Tier 2), мультискрипт, в котором нужно выбрать и пройти по одному из сотни скриптов. Действий больше, порядок произвольный, поведение разных операторов в одинаковых ситуациях различается — это мешает и учить модель, и собирать разметку.

Проблема первая: информационные действия отнимают время

Оператор может открыть пять вкладок и собрать данные в разной последовательности. Раньше co-pilot предлагал совершать каждое действие отдельно — оператору приходилось многократно нажимать кнопку «принять».

 

Решение: агент теперь сам делает информационные действия — ходит по вкладкам, собирает данные, и только на «опасных» действиях (например, списание денег) спрашивает оператора.

Проблема вторая: оператор ждет, пока агент работает

Пока модель собирает информацию, сотрудник простаивает.

 

Решение: у сотрудника открыто сразу несколько чатов — до 5 агентов в каждом из них. Когда агенту нужна помощь, он сигнализирует, и оператор переключается на этот чат.

Проблема третья: операторы сопротивляются изменениям

Операторы привыкли работать быстро, это была их мотивация, и co-pilot воспринимался как помеха скорости.

 

Решение: убрали мотивацию на скорость и поставили мотивацию на качество работы с моделью. Сейчас 50 сотрудников работают с системой, идет раскатка на 100+ человек.

Acceptance rate — 64%, 45% сессий — идеальные.

 

Следующий шаг — запуск автономных агентов, что даст полноценную автоматизацию на computer-use агенте в течение полугода.

Пример сессии в ТWork

Как Т‑Банк держит AI‑агентов под контролем

Управление агентами идет на нескольких уровнях:

 

  • До релиза: red teaming — модель тестируют на сложных и пограничных случаях.
  • В онлайне: гардрейлы — правила, которые анализируют действия агента. Если агент зацикливается (ходит назад-вперед), сессия автоматически уходит на человека, а оператор продолжает в режиме co-pilot.
  • Наследование ограничений: агенты работают под теми же учетками, что и операторы — если оператор не может начислить миллиард рублей каждому клиенту, агент тоже не может.

 

Контроль качества: агентов проверяют те же контролеры, по тем же формам, что и людей.

Агент наследует ограничения системы: у него те же учетки, те же доступы, та же защита от ошибок, что и у операторов.

Ключевые результаты

60%

Трафика автоматизировано полностью автономно в первом домене

40%

Экономия времени с AI-агентом дополнительно к чат-боту

98 баллов

Получает AI-агент по 100-балльной системе (средняя оценка людей — 94)

Топ-3

Место агента среди ~50 операторов

88%

Точность на офлайн-метриках после доменной адаптации модели T-Pro 32b

500 тысяч

Строк датасета записываются каждый день для обучения

50%+

Идеальных сессий в режиме co-pilot (домен реструктуризации)

10%+

Времени сотрудников экономит co-pilot в поддержке клиентов Т-Мобайл

Что дальше: масштабирование AI‑сотрудников

Система развивается по плану из десяти ступеней — от legacy-ботов через co-pilot и автономную работу в простых скриптах к полной автономии в сложных доменах. Сейчас проект на этапе масштабирования co-pilot на сложные скрипты, и в ближайшие полгода планируют запустить полноценную автоматизацию в поддержке Т-Мобайла.

 

Долгосрочная цель — забрать рутину у сотрудников и изменить роль оператора на контролера для AI. Агент автоматизирует то, что люди делают чаще всего, и освободит их для сложных задач.

 

Следующий этап — научить агента быть лучше среднего: сейчас он учится на действиях всех операторов, включая слабых, а следующий шаг — давать большее количество задач лучшим, чтобы агент тянулся к ним и растил продуктовые метрики.

Хотите решить похожую задачу?

Мы расскажем, с чего начать!

Оставить заявку