Эффективность ИИ в разработке: методология Axenix

Поделиться кейсом

Generation AI Awards

Григорий Бездольный

Adoption Lead в Axenix

Как считать эффективность ИИ в разработке: три методологии измерения

Команды разработки — самый дорогой ресурс в IT-компаниях. При этом GenAI в этом направлении внедряют активнее всего, а измерить реальную отдачу от внедрения новых инструментов сложно.

 

Григорий Бездольный, Adoption Lead в Axenix. За три года практики команда Григория протестировала более 50 сценариев использования GenAI на всех этапах разработки ПО и разработала систему измерения реального эффекта от внедрения нейросетей. В статье Григорий делится инсайтами о внедрении GenAI в разработку и оценке эффективности таких решений.

Проблема: больше кода ≠ больше ценности

Команда Axenix столкнулась с тем, что разработчики активно использовали нейросети, код генерировался быстрее, функции писались за минуты вместо часов. Но стандартные метрики не работали.

 

Количество строк кода выросло на 50%, но половина переписывается на code review. Скорость написания функций увеличилась, но время до релиза осталось прежним — узкое место оказалось в тестировании. Субъективные оценки показывают 40% экономии, автоматические замеры — всего 7%.

Субъективные оценки разработчиков завышают эффект от GenAI в 1,5–2 раза по сравнению с автоматическими замерами.

Нужна была методология, которая покажет минимально подтверждаемый эффект — тот, который выдержит проверку финансистов и позволит принимать обоснованные решения об инвестициях в AI.

От традиционной разработки к AI на каждом этапе

Axenix уже давно не использует традиционный подход к разработке ПО, когда каждый этап SDLC выполняется вручную. Компания выжала из классической автоматизации максимум — внедрила low-code репозитории, шаблоны и паттерны, автоматизацию тестирования, акселераторы. Передовой подход давал стабильные 10-20% прироста эффективности.

 

Но команды разработки остаются самым дорогим ресурсом, и когда появились генеративные нейросети, встал вопрос: можно ли выжать еще 5-10%?

 

Тогда решили перейти на новаторский подход, где GenAI применяется на каждом этапе цикла разработки:

 

  • Инициация: AI создает требования и подтверждает их корректность.
  • Анализ: AI помогает в проектировании и поиске соответствий между данными, генерирует диаграммы.
  • Дизайн: AI создает low-code репозитории и использует акселераторы.
  • Разработка: AI автоматически конфигурирует системы, генерирует код и валидирует его, ищет ошибки.
  • Тестирование создает тест-кейсы и синтетические данные. При развертывании генерирует конфигурации и обеспечивает безопасность.

 

Теоретически это должно добавить еще 5-10% эффективности сверх классической автоматизации. Но как это проверить на практике?

Как выглядит применение GenAI на разных этапах SDLC

Три методологии: от субъективной к математически точной

Команда Axenix разработала систему из трех подходов к измерению эффективности GenAI. Каждый решает свою задачу и применяется на разных этапах внедрения.

Методология 1: Качественный подход — для старта пилота

Первая методология используется на старте, когда у компании еще нет инфраструктуры для автоматического сбора данных. Она хороша для старта пилота и вовлечения команды.

Метрики

Time to market — экономия времени на релиз фич. Time saving — экономия часов на выполнение конкретных задач.

Как работает методология

1. A/B группы на стадии внедрения — одна команда работает с GenAI, другая без него; 2. Замеры «до и после» на одной команде с фиксацией изменений; 3. Интервью и CSAT-опросы для субъективной оценки улучшений.

Эффекты

Разработчики сообщают о 20-40% экономии времени, на отдельных кейсах вроде генерации регулярных выражений или создания SQL-запросов цифры доходят до 80%. Методология применима на всю команду разработки в цикле SDLC, показывает комплексный эффект на ранних стадиях внедрения технологии.

Ограничения подхода

1. Низкая точность — люди склонны преувеличивать эффект новых инструментов, особенно на волне энтузиазма. 2. Косвенное влияние на эффект — непонятно, что именно дало прирост: сам AI, энтузиазм команды от новой технологии или параллельные улучшения процессов. 3. Отсутствует прямая конвертация в рубли. Эффект новизны проходит через несколько месяцев, и показатели падают.

Качественный подход дает эффект 20-40% на старте, но через 2-3 месяца показатели падают из-за угасания энтузиазма команды.

Методология 2: Количественный подход — для консервативной оценки

Когда пилот показал первые результаты, Axenix перешла к более строгой методологии.

Метрики

Принятый разработчиком код, сгенерированный AI. Экономия времени на генерацию кода разработчиком.

Как работает методология

1. Система фиксирует весь сгенерированный AI-код — каждый раз, когда разработчик запрашивает что-то у нейросети. 2. Параллельно логируется принятый код — система отслеживает, какой именно код разработчик скопировал, изменил и добавил себе в проект. 3. Строится дерево метрик для конвертации кода в часы, а часов в рубли.

Пример расчета выглядит так:

1. Разработчик запросил функцию генерации отчета. 2. AI выдал 150 строк кода. 3. Разработчик принял 120 строк — это 80% от предложенного. 4. Средняя скорость написания такого кода вручную составляет, допустим, 10 строк в час. Получается экономия в 12 часов работы. При стоимости часа разработчика в 3000 рублей экономия в деньгах составляет 36 000 рублей на одной задаче.

Эффекты

Реальные проекты показывают 5-10% экономии рабочего времени на решение задач. Для команды из 90 человек за 3 месяца это дало экономию примерно 3,4 миллиона рублей. Окупаемость инвестиций — менее года с учетом затрат на разовые инвестиции. Но также, конечно, в следующие годы потребуются затраты на лицензии и поддержание новых процессов в командах.

Ограничения подхода

1. Эффективность и производительность разработчика не ограничиваются только написанием кода. Важнейшей составляющей является «инженерная мысль». 2. Подход применим только для задач разработки, не учитывает аналитику, тестирование, дизайн. 3. Есть зависимость от грейда сотрудника.

Количественный подход дает стабильные 5-10% экономии — это минимально подтверждаемый эффект, который выдержит проверку финансистов.

Методология 3: Генеративный подход — для полной картины

Самая продвинутая методология, которую Axenix разработала для комплексной оценки. Вместо того чтобы считать строки кода, система анализирует проницаемость AI в финальный продукт и полезность сгенерированного контента. Методология применима для всех разработчиков независимо от их навыков. Ее можно совместить с расчетом количественного эффекта для более полной картины. Эффект считается за счет объема кода, но с учетом того, насколько этот код действительно полезен и попал в финальный продукт.

Метрики

Проницаемость — какой процент AI-кода попал в продакшн, где 100% означает, что весь код написан LLM, а 0% — весь код написан вручную без AI. Полезность — насколько разработчик использовал ответы AI, где 100% означает полный копипаст без изменений, а 0% — ответы вообще не использовались. Реальные цифры из проектов показывают от 10% до 40% проницаемости AI-кода в зависимости от этапа SDLC. Полезность сгенерированного кода составляет в среднем 30% — разработчики используют примерно треть от того, что им предлагает AI.

Как работает методология

1. Система собирает весь сгенерированный AI-код — все, что нейросеть предложила разработчику. 2. Параллельно собирается код, который был запушен в Git. 3. Специальный модуль ищет пересечения сгенерированного кода в запушенном коде, используя различные алгоритмы, в том числе генеративные технологии.

Пример расчета для команды из 100 разработчиков:

1. За месяц команда пишет 100 000 строк кода. 2. При проницаемости 55% получается 55 000 строк кода, сгенерированных AI и запушенных в продакшен. 3. При скорости написания, допустим, 10 строк в час и стоимости часа 3000 рублей получается экономия около 16,5 млн рублей в месяц или 55 тысяч часов.

Реальные проекты: от 7% до 31% экономии времени

Axenix применила все три методологии на реальных проектах в банковском, финансовом и промышленном секторах.

Проект в банковском секторе

 
Команда разработки менее 20 человек, срок внедрения 3 месяца. На старте использовали только качественный подход — A/B группы и опросы разработчиков.
 
Субъективные оценки показали 28% повышение производительности и 10% среднюю экономию времени на типовых задачах.
 
Когда подключили количественный подход с автоматическим расчетом, реальная цифра оказалась 7% экономии рабочего времени. Субъективные оценки оказались завышены примерно в полтора раза, но даже консервативные 7% для команды разработки — серьезная экономия.

Проект в металлургии

 

SDLC-команда менее 100 человек, включая разработчиков, аналитиков, тестировщиков. Срок внедрения 3-6 месяцев. Задача — ускорить разработку внутренних систем управления производством.
 
Использовали все три подхода одновременно для сравнения. Субъективные оценки показали 24% повышение производительности и 31% сокращение времени на типовые задачи, особенно на генерации документации, создании диаграмм, написании bash-скриптов.
 
Автоматический расчет дал стабильные 5-10% экономии времени на задачах разработки. Генеративный подход показал от 10% до 40% проницаемости AI-кода в зависимости от этапа SDLC.

На типовых задачах вроде генерации unit-тестов AI дает 50% экономии, на сложных архитектурных решениях — всего 10-20%

На большой команде эффект оказался более предсказуемым. GenAI показал максимальную пользу на рутинных задачах: генерация unit-тестов дает 50% экономии, объяснение кода — 60%, создание SQL-запросов — 50%.

Проект в финансовом секторе

 

SDLC-команда около 200 человек, срок внедрения 3-6 месяцев. Задача — интеграция GenAI во все этапы разработки финансовых продуктов. Использовали полный цикл замеров от субъективных оценок до генеративного подхода.
 
Субъективные оценки дали 18% средней экономии времени. Генеративный подход показал, что 17% AI-кода принято разработчиками — почти пятая часть итогового кода сгенерирована нейросетью. Автоматический расчет подтвердил примерно 10% экономии времени как стабильный показатель для крупной команды.

50+ сценариев: где GenAI дает максимальный эффект

Чтобы получить эти результаты, команда Axenix протестировала более 50 конкретных сценариев использования AI на всех этапах SDLC. Генерация unit-тестов — лидер по экономии времени, что эквивалентно высвобождению трети команды тестирования.

Уровни зрелости: почему технология не работает без людей

GenAI-технологии дают эффект только тогда, когда люди готовы ее использовать. Команда Axenix разработала модель зрелости сотрудников по двум осям: активность использования и полезность результатов.

Четыре уровня зрелости команды:

 
 
Уровень 1 — «что-то слышал, пробовал»
 
Минимальное знакомство без реального опыта. Сотрудник слышал про ChatGPT, может быть попробовал один раз из любопытства. Активность низкая, полезность близка к нулю.
 
 
Уровень 2 — «использует, находит ценность»
 
Сотрудник тестирует инструменты, понимает возможности, начинает применять их в реальных задачах. Регулярно обращается к AI для простых задач вроде написания комментария, объяснения ошибки, генерации шаблона. Активность средняя, полезность растет.
 
 
Уровень 3 — «GenAI является неотъемлемой частью работы»
 
Ощутимая продуктивность, уверенное владение инструментами. Сотрудник не представляет работу без AI, использует его на всех этапах, понимает, где AI сильнее человека и наоборот. Активность высокая, полезность максимальная.
 
 
Уровень 4 — «вдохновляет, делится экспертизой»
 
Лидер мнений, обучает коллег, формирует культуру использования GenAI в команде. Сотрудник становится внутренним евангелистом, проводит воркшопы, делится лайфхаками, помогает другим разобраться. Активность очень высокая, полезность высокая плюс мультипликативный эффект на всю команду.

Для успешного внедрения нужно вырастить 15% команды до уровня 3 и 5-10% до уровня 4 за первые 6 месяцев

Барьеры и драйверы внедрения

Команде Axenix пришлось преодолевать несколько типичных барьеров.

Барьеры внедрения:

 
 
«AI пишет плохой код»
 
На старте AI действительно генерировал код с ошибками, решением стало обучение промптингу и использование AI как умного автодополнения.
 
 
«Это небезопасно»
 
Риск утечки кода через публичные AI-сервисы, решением стало развертывание AI-моделей в защищенном контуре компании.
 
 
«У меня и так нормально работает»
 
Сеньоры не видят ценности, решением стало показать сценарии автоматической генерации документации, тестов, рефакторинга legacy-кода.
 
 
«Нет времени разбираться»
 
Команды перегружены задачами, решением стал пилот на добровольцах и quick wins с демонстрацией эффекта за 5 минут.

Драйверы, которые работают:

 
 
Quick wins
 
Показать эффект немедленно через генерацию unit-теста, объяснение legacy-кода, создание SQL-запроса.
 
 
Чемпионы
 
Найти 2-3 энтузиастов в команде, дать им ресурсы, сделать лидерами мнений.
 
 
Прозрачность
 
Показывать метрики, сколько времени сэкономили, сколько денег, какие сценарии работают лучше всего.

Выводы

Опыт Axenix по внедрению GenAI в команды разработки показывает несколько ключевых моментов.

 

  1. GenAI приносит реальные эффекты при целевом внедрении. Консервативная оценка дает стабильные 5-10% экономии времени, субъективная оценка показывает 20-40%.
  2. Целевое внедрение требует устранения барьеров и поиска драйверов. Без вовлечения людей технология не работает.
  3. Эффект нужно измерять комплексно: через связку технических, операционных и финансовых показателей. Качественный подход для старта, количественный для консервативной оценки, генеративный для полной картины.
  4. Начинать нужно с приоритетных сценариев через пилот и масштабирование. Протестировать 50+ сценариев, выбрать топ-10 по эффективности для конкретной команды, масштабировать.

 

Как любой инструмент, GenAI требует навыка использования, правильного внедрения и честного измерения результатов.