Как Т-Банк научил AI-агента работать в топ-3 операторов и автоматизировать 60% обращений

Поделиться кейсом

GenAI Awards 2026

Февраль 2026

Дмитрий Битман
Product Lead AI центра Т-Банка

Финансы

Как Т-Банк научил AI-агента работать в топ-3 операторов и автоматизировать 60% обращений

TL;DR
Т-Банк создал AI-агента, который работает в тех же интерфейсах, что и люди, через подход computer use. Система записывает действия операторов, обучает на них модель, тестирует в режиме co-pilot и запускает автономно.

Результат: AI-агент автоматизировал 60% трафика, получил 98 баллов по качеству работы (против 94 у людей) и вошел в топ-3 среди 50 операторов.

Масштаб диктует сложность: сложности операционки

В Т-Банке десятки тысяч сотрудников работают над операционными задачами: поддержка клиентов, продажи услуг, взыскание долгов. Операционных процессов здесь десятки тысяч, и они постоянно меняются. При этом компания должна обеспечивать бесперебойную работу в системах, где люди и технологии работают вместе.

Чат-боты решают часть задач, связанных с поддержкой клиентов, но большая доля обращений все равно попадает на операторов. При этом оператор — не просто человек, который отвечает клиенту: он работает в интерфейсах — проверяет данные, нажимает кнопки, заполняет поля, следует скриптам, принимает решения.

Т-Банк задался вопросом: что, если AI-агент сможет делать то же самое — не просто отвечать в чате, а работать в системах как человек?

Философия подхода computer use: AI-сотрудник, который напрямую учится у людей и работает совместно с ними

Computer use означает, что AI-агент работает прямо в интерфейсе оператора: видит то же, что видит человек на экране, нажимает те же кнопки, вводит те же данные.

Вместо того чтобы строить отдельные автоматизации для каждого процесса, Т-Банк создал систему, которая учится работать так же, как учатся люди — смотреть и повторять.

Выбор UI вместо API обоснован практически: оператор легко оценивает правильность действий модели в знакомой рабочей системе, тогда как разметить правильность вызова API он бы не смог. Кроме того, рабочая система уже содержит защиту от ошибок, и агент наследует ее.

Если люди решают задачи — можно обучить и AI-агента это делать. Не нужно строить отдельную автоматизацию для каждого процесса.

Proof of concept: как выбирали первый домен

Для proof of concept выбрали отдел реструктуризации долгов — это скриптовый домен первого уровня сложности, то есть внутри процесса один или малое количество скриптов, отклонений мало.

Задача — проверить, сработает ли подход, прежде чем масштабировать на сложные процессы.

Для контекста — демо платформы со встроенным ассистентом:

Пять шагов от траекторий до автономии AI-агента

Шаг первый: записать, как работают люди

Операторы работают как обычно и ничего не видят, а система записывает их действия в интерфейсе: нажал сюда, написал это, выбрал то.

В формате JSON фиксируется состояние экрана и каждое действие оператора, и банк получает 500 тысяч строк датасета каждый день — постоянно актуализируемую базу знаний о том, как реальные люди решают задачи.

Устройство AI-агента

Шаг второй: обучить модель повторять действия

На собранных траекториях обучают модель в формате вопроса: «Вот это на экране — что нужно сделать?»

Команда начала с foundation-моделей из коробки, но промптинг ChatGPT давал точность около 30% — для базовых действий вроде клика на кнопку модели справляются, однако на тонкостях (чем кредит отличается от рассрочки, в каких случаях какая кнопка) модели путаются. Модель Т-Банка почти сразу показала результат выше 50%.

Решением стало дообучение: T-Pro на 32 миллиарда параметров с доменной адаптацией и SFT (supervised fine-tuning), обученная на всей поддержке банка — все термины, специфика траекторий, доменные знания.

Точность на офлайн-метриках (попадание в действия оператора) — 88%.

Шаг третий: проверить в режиме co-pilot

Обученную модель запустили в режиме co-pilot: оператор работает в своей системе, но видит подсказку — что модель предлагает сделать дальше. Одной кнопкой можно принять или отклонить и сделать по-своему.

Система постоянно собирает обратную связь — сколько процентов подсказок оператор принял. В домене реструктуризации операторы принимали больше 85% подсказок.

Но ключевая метрика — «идеальные сессии»: когда оператор от начала до конца просто нажимал «принять». Таких сессий оказалось более 50%, что означает: модель готова работать автономно на этих сценариях.

Пример подсказки от модели

Шаг четвертый: научить модель отличать, где она готова

На идеальных сессиях обучили отдельную модель — энейблер, который смотрит на входящее обращение и определяет: AI уже все выучил и может работать сам, или это сложный случай для человека. Так система сама разделяет трафик между автоматизацией и живой консультацией.

Шаг пятый: запустить автономных агентов

Запустили 5 экземпляров Афанасия в Kubernetes — каждому завели учетки в системе, как обычным сотрудникам, с теми же доступами и ограничениями. Технически: на машине стоит клиент, который снимает состояние рабочей системы, отправляет на бэкенд, получает от модели ответ «Что делать?» и выполняет действие.

Все сложные случаи автоматически переводятся на co-pilot, и люди продолжают генерировать разметку для дообучения — система замкнулась в петлю обратной связи.

Афанасий оказался так похож на обычного оператора, что в системах его от людей не отличали — как рассказывает руководитель проекта, «наши сотрудники так похожи на людей, что ничем не отличаются во всех системах, даже пытались выплатить премию Афанасию, начали искать, кому оплатить, и не нашли».

Первые результаты: когда AI-агент попадает в топ-3 сотрудника

В production агент автоматизировал 60% трафика — дополнительно к чат-боту, который был и остался. По результатам А/Б теста экономия составила 40% времени операторов.

Качество работы оценивали слепо: диалоги агента отправляли тем же разметчикам и контролерам, которые проверяют людей, по тем же формам.

Вначале контролеры не знали, что Афанасий — агент, потом узнали, но продолжили оценивать по тем же критериям.

Результат: 98 баллов по 100-балльной системе (средняя оценка людей — 94), топ-3 среди примерно 50 операторов.

Масштабирование на сложные домены: где система дает сбой и как это чинить

После реструктуризации Т-Банк перешел к поддержке клиентов мобильного оператора — задача второго уровня сложности (Tier 2), мультискрипт, в котором нужно выбрать и пройти по одному из сотни скриптов. Действий больше, порядок произвольный, поведение разных операторов в одинаковых ситуациях различается — это мешает и учить модель, и собирать разметку.

Проблема первая: информационные действия отнимают время
Оператор может открыть пять вкладок и собрать данные в разной последовательности. Раньше co-pilot предлагал совершать каждое действие отдельно — оператору приходилось многократно нажимать кнопку «принять».

Решение: агент теперь сам делает информационные действия — ходит по вкладкам, собирает данные, и только на «опасных» действиях (например, списание денег) спрашивает оператора.

Проблема вторая: оператор ждет, пока агент работает
Пока модель собирает информацию, сотрудник простаивает.

Решение: у сотрудника открыто сразу несколько чатов — до 5 агентов в каждом из них. Когда агенту нужна помощь, он сигнализирует, и оператор переключается на этот чат.

Проблема третья: операторы сопротивляются изменениям
Операторы привыкли работать быстро, это была их мотивация, и co-pilot воспринимался как помеха скорости.

Решение: убрали мотивацию на скорость и поставили мотивацию на качество работы с моделью. Сейчас 50 сотрудников работают с системой, идет раскатка на 100+ человек.

Acceptance rate — 64%, 45% сессий — идеальные.

Следующий шаг — запуск автономных агентов, что даст полноценную автоматизацию на computer-use агенте в течение полугода.

Пример сессии в ТWork

Как Т-Банк держит AI-агентов под контролем

Управление агентами идет на нескольких уровнях:

- До релиза: red teaming — модель тестируют на сложных и пограничных случаях.
- В онлайне: гардрейлы — правила, которые анализируют действия агента. Если агент зацикливается (ходит назад-вперед), сессия автоматически уходит на человека, а оператор продолжает в режиме co-pilot.
- Наследование ограничений: агенты работают под теми же учетками, что и операторы — если оператор не может начислить миллиард рублей каждому клиенту, агент тоже не может.

Контроль качества: агентов проверяют те же контролеры, по тем же формам, что и людей.

Агент наследует ограничения системы: у него те же учетки, те же доступы, та же защита от ошибок, что и у операторов.

Ключевые результаты

60%

Трафика автоматизировано полностью автономно в первом домене

40%

Экономия времени с AI-агентом дополнительно к чат-боту

98 баллов

Получает AI-агент по 100-балльной системе (средняя оценка людей — 94)

Топ-3

Место агента среди ~50 операторов

88%

Точность на офлайн-метриках после доменной адаптации модели T-Pro 32b

500 тысяч

Строк датасета записываются каждый день для обучения

50%+

Идеальных сессий в режиме co-pilot (домен реструктуризации)

10%+

Времени сотрудников экономит co-pilot в поддержке клиентов Т-Мобайл

Что дальше: масштабирование AI-сотрудников

Система развивается по плану из десяти ступеней — от legacy-ботов через co-pilot и автономную работу в простых скриптах к полной автономии в сложных доменах. Сейчас проект на этапе масштабирования co-pilot на сложные скрипты, и в ближайшие полгода планируют запустить полноценную автоматизацию в поддержке Т-Мобайла.

Долгосрочная цель — забрать рутину у сотрудников и изменить роль оператора на контролера для AI. Агент автоматизирует то, что люди делают чаще всего, и освободит их для сложных задач.

Следующий этап — научить агента быть лучше среднего: сейчас он учится на действиях всех операторов, включая слабых, а следующий шаг — давать большее количество задач лучшим, чтобы агент тянулся к ним и растил продуктовые метрики.

Хотите внедрить AI-агентов в вашей компании? Используйте Just AI Agent Platform — платформу для автоматизации процессов с помощью AI-агентов

Оставить заявку

Другие кейсы

Альфа-Банк и персонализация продаж

Переход к точным предложениям с ростом конверсии на 16%

HiveTrace и безопасность LLM

Мониторинг, редтиминг и контроль уязвимостей LLM

РСХБ.Цифра и производительность команды тестировщиков

LLM в автотестах и внутренних сервисах