Как развитие собственных llm принесли 670 млн выручки за год
Авито — одна из крупнейших IT-компаний в России и самая популярная платформа объявлений в мире по данным Similarweb. В 2025 году проект Авито по внедрению больших языковых моделей получил премию Generation AI Awards как лучший проект в области генеративного AI. Команда создала собственное LLM-семейство, встроила его в десятки сценариев и доказала: GenAI может приносить масштабную пользу миллионам пользователей и осязаемый бизнес-результат.
Архитектура: как устроено LLM‑семейство Авито
В Авито LLM-семейство построено на собственной модели, основанной на Qwen2.5 с 7 миллиардами параметров, которую команда существенно доработала и адаптировала под задачи российского рынка.
Базовые модели:
A-Vibe
Текстовая языковая модель Авито для работы с русскоязычным контентом
A-Vision
Мультимодальная модель, способная одновременно обрабатывать текст и другие типы контента
Собственный токенизатор
Это один из главных технологических прорывов Авито. Токенизатор — это компонент, который разбивает текст на отдельные элементы (токены) для обработки нейросетью. Команда разработала специализированный токенизатор, который:
- Ускоряет обработку русского текста до 2 раз
- Обеспечивает среднюю длину токена 3.6+ символа против 3.2 у базовой Qwen2.5
- Особенно эффективен для данных классифайда — использует на 29% меньше токенов для тех же текстов
Инфраструктура развертывания:
- Все модели размещаются исключительно в собственной инфраструктуре Авито
- Полностью закрытый контур обработки данных для обеспечения безопасности
Интеграция с продуктами:
- API для интеграции с внутренними системами компании
- Специализированные интерфейсы для разных бизнес-вертикалей
- Возможность real-time обработки для продуктов с жесткими требованиями к latency
Модель превзошла международные аналоги от OpenAI, Google и Anthropic в российском бенчмарке MERA, заняв первое место среди облегченных моделей до 10 млрд параметров.
Обучение: как в Авито развивали собственную модель
Выбрали подход создания собственной модели на базе открытых решений вместо использования проприетарных API и разработки модели с нуля. Это решение обусловлено несколькими факторами:
- Безопасность данных и контроль над процессом
- Более низкие затраты ресурсов
- Развитие внутренней экспертизы в области LLM
- Возможность точной настройки под специфику Авито
- Митигация рисков зависимости от внешних поставщиков
Трехэтапный процесс обучения:
1. Адаптация токенизатора
В базовой модели заменили стандартный токенизатор на собственную реализацию. Далее модель обучали в два этапа: сначала — только эмбеддинг-слой, отвечающий за работу с новыми токенами, затем — полное дообучение всей модели. В качестве задачи использовали предсказание следующего токена — стандартный подход при обучении языковых моделей.
2. Этап SFT (Supervised Fine-Tuning)
На этом этапе модель обучалась понимать системные промпты, поддерживать диалог и корректно отвечать на вопросы. Для обучения использовался датасет, включающий более 800 тысяч примеров вопросов, ответов и диалогов.
3. Этап DPO (Direct Preference Optimization)
Финальный этап был направлен на повышение безопасности модели и улучшение качества генерации. Команда составила более 2000 провокационных вопросов с правильными ответами. Для генерации и оценки альтернативных ответов использовались крупные open-source модели.
Источники данных для обучения
- Open-source датасеты — открытые корпуса текстов на русском и английском языках
- Обезличенные данные Авито — тексты с платформы без персональной информации
- Код на разных языках программирования — для улучшения способностей модели к программированию
- Синтетические данные — сгенерированные большими моделями вопросы и ответы
- Логи внутреннего использования — записи общения сотрудников Авито с LLM для тестирования
Общий объем: более 700 миллиардов токенов для базового обучения + 800 тысяч примеров диалогов для финальной настройки.
Контроль качества данных
Во время этапа SFT за качеством данных следит большая языковая модель — она автоматически оценивает примеры и убирает из датасета те, что не подходят. Важно, чтобы датасет оставался не только чистым, но и разнообразным по темам, поэтому команда следит, чтобы в нем было представлено как можно больше разных контекстов. Отдельная модель помогает понять, какие ответы получаются лучше, а какие стоит доработать.
Ключевые сценарии использования LLM в Авито
- Нейро-описания объявлений — автоматически создают продающие тексты товаров. Помогают частным продавцам составлять качественные описания без опыта копирайтинга.
- Нейро-подсказки в мессенджере — предлагают готовые ответы в переписке между покупателями и продавцами. Ускоряют общение и помогают быстрее договориться о сделке.
- Нейро-ассистент — отвечает за продавцов на вопросы покупателей о товарах. Консультирует по наличию и характеристикам без участия человека.
- Автоматическая разметка тегами — определяет характеристики товара по фото и добавляет в поисковый индекс специальные невидимые теги. Улучшает поиск даже когда продавец не указал параметры.
- Мульти-объявления — объединяет варианты одного товара (цвета, размеры) в одно объявление. Нейросеть автоматически извлекает параметры из текста.
- Авито Авто: анализ звонков — определяет готовность клиентов к покупке по разговорам с дилерами. Находит до 30% готовых покупателей, рост сделок на 5,6%.
- Улучшение отчетов в Автотеке – нейросеть автоматически обрабатывает данные о ремонтах и ДТП из различных источников (страховые, сервисы, ГИБДД), расшифровывает технические термины и создает понятные отчеты с визуальной схемой повреждений автомобиля.
- Авито Работа: улучшение резюме — помогает соискателям создавать более качественные тексты резюме.
- Авито Услуги: нейро-отзывы — создает краткий пересказ множества отзывов об исполнителях услуг.
Эффект от внедрения LLM в Авито
В 2024 году, первом году активного внедрения GenAI, Авито получил 670 млн рублей выручки от продуктов на основе больших языковых моделей. На 2025 год запланировано более 1 млрд рублей от 20 новых сценариев, а к 2028 году компания ожидает 21 млрд рублей выручки при инвестициях 12 млрд рублей.
Авито использует комплексную систему метрик, включающую как продуктовые показатели (конверсии, активность пользователей), так и технические параметры (скорость, точность), что позволяет измерять ROI каждого направления.
Инсайты от команды Авито
Человеческая экспертиза как часть продукта
В ключевых технологиях нужно растить экспертизу в команде с первого дня, а не стараться положиться на вендоров.
Безопасность — не дополнение, а основа архитектуры
Модели могут генерировать неподходящий и даже вредный контент, поэтому принципы безопасности генерируемого контента нужно закладывать на этапе обучения.
Оценка качества генеративных моделей
В отличие от классических ML-задач, здесь нет единственно правильного подхода к оцениванию. Модель может сгенерировать совершенно другой текст, но он тоже будет хорошим. Автоматические метрики часто бесполезны, всегда нужны люди для оценки. Это кардинально влияет на скорость разработки и стоимость проектов.
Планы по развитию GenAI в Авито
В 2025 году команда собирается запустить 20 новых сценариев использования генеративного AI — у них большой потенциал, общий объем выручки может превысить миллиард рублей.
Один из приоритетов — максимально упростить процесс подачи объявлений. Глобальная цель — свести весь процесс к минимуму действий от пользователя: сфотографировал товар, получил готовое объявление с описанием, ценой и всеми характеристиками.
Еще одно направление — развитие умного поискового ассистента, который будет помогать пользователям находить товары через естественное общение. Вместо сложных фильтров — простой диалог на обычном языке с персонализированными рекомендациями.
Хотите решить похожую задачу?
Мы расскажем, с чего начать!
Хеппивеар и аналитика отзывов на маркетплейсе
GigaChat для обработки 180 000 отзывов в месяц, поиска багов и повышения лояльности
Nedra Digital и AI в геологоразведке
Синтетические аэрофотоснимки для геологоразведки
12Storeez и интеллектуальный анализ отзывов
Расширенные возможности анализа отзывов клиентов на базе GenAI