Как считать эффективность ИИ в разработке: три методологии измерения
Команды разработки — самый дорогой ресурс в IT-компаниях. При этом GenAI в этом направлении внедряют активнее всего, а измерить реальную отдачу от внедрения новых инструментов сложно.
Григорий Бездольный, Adoption Lead в Axenix. За три года практики команда Григория протестировала более 50 сценариев использования GenAI на всех этапах разработки ПО и разработала систему измерения реального эффекта от внедрения нейросетей. В статье Григорий делится инсайтами о внедрении GenAI в разработку и оценке эффективности таких решений.
Проблема: больше кода ≠ больше ценности
Команда Axenix столкнулась с тем, что разработчики активно использовали нейросети, код генерировался быстрее, функции писались за минуты вместо часов. Но стандартные метрики не работали.
Количество строк кода выросло на 50%, но половина переписывается на code review. Скорость написания функций увеличилась, но время до релиза осталось прежним — узкое место оказалось в тестировании. Субъективные оценки показывают 40% экономии, автоматические замеры — всего 7%.
Субъективные оценки разработчиков завышают эффект от GenAI в 1,5–2 раза по сравнению с автоматическими замерами.
Нужна была методология, которая покажет минимально подтверждаемый эффект — тот, который выдержит проверку финансистов и позволит принимать обоснованные решения об инвестициях в AI.
От традиционной разработки к AI на каждом этапе
Axenix уже давно не использует традиционный подход к разработке ПО, когда каждый этап SDLC выполняется вручную. Компания выжала из классической автоматизации максимум — внедрила low-code репозитории, шаблоны и паттерны, автоматизацию тестирования, акселераторы. Передовой подход давал стабильные 10-20% прироста эффективности.
Но команды разработки остаются самым дорогим ресурсом, и когда появились генеративные нейросети, встал вопрос: можно ли выжать еще 5-10%?
Тогда решили перейти на новаторский подход, где GenAI применяется на каждом этапе цикла разработки:
- Инициация: AI создает требования и подтверждает их корректность.
- Анализ: AI помогает в проектировании и поиске соответствий между данными, генерирует диаграммы.
- Дизайн: AI создает low-code репозитории и использует акселераторы.
- Разработка: AI автоматически конфигурирует системы, генерирует код и валидирует его, ищет ошибки.
- Тестирование создает тест-кейсы и синтетические данные. При развертывании генерирует конфигурации и обеспечивает безопасность.
Теоретически это должно добавить еще 5-10% эффективности сверх классической автоматизации. Но как это проверить на практике?
Как выглядит применение GenAI на разных этапах SDLC
Три методологии: от субъективной к математически точной
Команда Axenix разработала систему из трех подходов к измерению эффективности GenAI. Каждый решает свою задачу и применяется на разных этапах внедрения.
Методология 1: Качественный подход — для старта пилота
Первая методология используется на старте, когда у компании еще нет инфраструктуры для автоматического сбора данных. Она хороша для старта пилота и вовлечения команды.
Метрики
Time to market — экономия времени на релиз фич. Time saving — экономия часов на выполнение конкретных задач.
Как работает методология
1. A/B группы на стадии внедрения — одна команда работает с GenAI, другая без него; 2. Замеры «до и после» на одной команде с фиксацией изменений; 3. Интервью и CSAT-опросы для субъективной оценки улучшений.
Эффекты
Разработчики сообщают о 20-40% экономии времени, на отдельных кейсах вроде генерации регулярных выражений или создания SQL-запросов цифры доходят до 80%. Методология применима на всю команду разработки в цикле SDLC, показывает комплексный эффект на ранних стадиях внедрения технологии.
Ограничения подхода
1. Низкая точность — люди склонны преувеличивать эффект новых инструментов, особенно на волне энтузиазма. 2. Косвенное влияние на эффект — непонятно, что именно дало прирост: сам AI, энтузиазм команды от новой технологии или параллельные улучшения процессов. 3. Отсутствует прямая конвертация в рубли. Эффект новизны проходит через несколько месяцев, и показатели падают.
Качественный подход дает эффект 20-40% на старте, но через 2-3 месяца показатели падают из-за угасания энтузиазма команды.
Методология 2: Количественный подход — для консервативной оценки
Когда пилот показал первые результаты, Axenix перешла к более строгой методологии.
Метрики
Принятый разработчиком код, сгенерированный AI. Экономия времени на генерацию кода разработчиком.
Как работает методология
1. Система фиксирует весь сгенерированный AI-код — каждый раз, когда разработчик запрашивает что-то у нейросети. 2. Параллельно логируется принятый код — система отслеживает, какой именно код разработчик скопировал, изменил и добавил себе в проект. 3. Строится дерево метрик для конвертации кода в часы, а часов в рубли.
Пример расчета выглядит так:
1. Разработчик запросил функцию генерации отчета. 2. AI выдал 150 строк кода. 3. Разработчик принял 120 строк — это 80% от предложенного. 4. Средняя скорость написания такого кода вручную составляет, допустим, 10 строк в час. Получается экономия в 12 часов работы. При стоимости часа разработчика в 3000 рублей экономия в деньгах составляет 36 000 рублей на одной задаче.
Эффекты
Реальные проекты показывают 5-10% экономии рабочего времени на решение задач. Для команды из 90 человек за 3 месяца это дало экономию примерно 3,4 миллиона рублей. Окупаемость инвестиций — менее года с учетом затрат на разовые инвестиции. Но также, конечно, в следующие годы потребуются затраты на лицензии и поддержание новых процессов в командах.
Ограничения подхода
1. Эффективность и производительность разработчика не ограничиваются только написанием кода. Важнейшей составляющей является «инженерная мысль». 2. Подход применим только для задач разработки, не учитывает аналитику, тестирование, дизайн. 3. Есть зависимость от грейда сотрудника.
Количественный подход дает стабильные 5-10% экономии — это минимально подтверждаемый эффект, который выдержит проверку финансистов.
Методология 3: Генеративный подход — для полной картины
Самая продвинутая методология, которую Axenix разработала для комплексной оценки. Вместо того чтобы считать строки кода, система анализирует проницаемость AI в финальный продукт и полезность сгенерированного контента. Методология применима для всех разработчиков независимо от их навыков. Ее можно совместить с расчетом количественного эффекта для более полной картины. Эффект считается за счет объема кода, но с учетом того, насколько этот код действительно полезен и попал в финальный продукт.
Метрики
Проницаемость — какой процент AI-кода попал в продакшн, где 100% означает, что весь код написан LLM, а 0% — весь код написан вручную без AI. Полезность — насколько разработчик использовал ответы AI, где 100% означает полный копипаст без изменений, а 0% — ответы вообще не использовались. Реальные цифры из проектов показывают от 10% до 40% проницаемости AI-кода в зависимости от этапа SDLC. Полезность сгенерированного кода составляет в среднем 30% — разработчики используют примерно треть от того, что им предлагает AI.
Как работает методология
1. Система собирает весь сгенерированный AI-код — все, что нейросеть предложила разработчику. 2. Параллельно собирается код, который был запушен в Git. 3. Специальный модуль ищет пересечения сгенерированного кода в запушенном коде, используя различные алгоритмы, в том числе генеративные технологии.
Пример расчета для команды из 100 разработчиков:
1. За месяц команда пишет 100 000 строк кода. 2. При проницаемости 55% получается 55 000 строк кода, сгенерированных AI и запушенных в продакшен. 3. При скорости написания, допустим, 10 строк в час и стоимости часа 3000 рублей получается экономия около 16,5 млн рублей в месяц или 55 тысяч часов.
Реальные проекты: от 7% до 31% экономии времени
Axenix применила все три методологии на реальных проектах в банковском, финансовом и промышленном секторах.
Проект в банковском секторе
Проект в металлургии
На типовых задачах вроде генерации unit-тестов AI дает 50% экономии, на сложных архитектурных решениях — всего 10-20%
На большой команде эффект оказался более предсказуемым. GenAI показал максимальную пользу на рутинных задачах: генерация unit-тестов дает 50% экономии, объяснение кода — 60%, создание SQL-запросов — 50%.
Проект в финансовом секторе
50+ сценариев: где GenAI дает максимальный эффект
Чтобы получить эти результаты, команда Axenix протестировала более 50 конкретных сценариев использования AI на всех этапах SDLC. Генерация unit-тестов — лидер по экономии времени, что эквивалентно высвобождению трети команды тестирования.
Уровни зрелости: почему технология не работает без людей
GenAI-технологии дают эффект только тогда, когда люди готовы ее использовать. Команда Axenix разработала модель зрелости сотрудников по двум осям: активность использования и полезность результатов.
Четыре уровня зрелости команды:
Для успешного внедрения нужно вырастить 15% команды до уровня 3 и 5-10% до уровня 4 за первые 6 месяцев
Барьеры и драйверы внедрения
Команде Axenix пришлось преодолевать несколько типичных барьеров.
Барьеры внедрения:
Драйверы, которые работают:
Выводы
Опыт Axenix по внедрению GenAI в команды разработки показывает несколько ключевых моментов.
- GenAI приносит реальные эффекты при целевом внедрении. Консервативная оценка дает стабильные 5-10% экономии времени, субъективная оценка показывает 20-40%.
- Целевое внедрение требует устранения барьеров и поиска драйверов. Без вовлечения людей технология не работает.
- Эффект нужно измерять комплексно: через связку технических, операционных и финансовых показателей. Качественный подход для старта, количественный для консервативной оценки, генеративный для полной картины.
- Начинать нужно с приоритетных сценариев через пилот и масштабирование. Протестировать 50+ сценариев, выбрать топ-10 по эффективности для конкретной команды, масштабировать.
Как любой инструмент, GenAI требует навыка использования, правильного внедрения и честного измерения результатов.