Главная
Кейсы
Авито — лучший проект в области генеративного AI

Август 2025

Команда Авито

Awards

Как развитие собственных llm принесли 670 млн выручки за год

Авито — одна из крупнейших IT-компаний в России и самая популярная платформа объявлений в мире по данным Similarweb. В 2025 году проект Авито по внедрению больших языковых моделей получил премию Generation AI Awards как лучший проект в области генеративного AI. Команда создала собственное LLM-семейство, встроила его в десятки сценариев и доказала: GenAI может приносить масштабную пользу миллионам пользователей и осязаемый бизнес-результат.

Архитектура: как устроено LLM‑семейство Авито

В Авито LLM-семейство построено на собственной модели, основанной на Qwen2.5 с 7 миллиардами параметров, которую команда существенно доработала и адаптировала под задачи российского рынка.

Базовые модели:

A-Vibe

Текстовая языковая модель Авито для работы с русскоязычным контентом

A-Vision

Мультимодальная модель, способная одновременно обрабатывать текст и другие типы контента

Собственный токенизатор

Это один из главных технологических прорывов Авито. Токенизатор — это компонент, который разбивает текст на отдельные элементы (токены) для обработки нейросетью. Команда разработала специализированный токенизатор, который:

Ускоряет обработку русского текста до 2 раз
Обеспечивает среднюю длину токена 3.6+ символа против 3.2 у базовой Qwen2.5
Особенно эффективен для данных классифайда — использует на 29% меньше токенов для тех же текстов

Инфраструктура развертывания:

Все модели размещаются исключительно в собственной инфраструктуре Авито
Полностью закрытый контур обработки данных для обеспечения безопасности

Интеграция с продуктами:

API для интеграции с внутренними системами компании
Специализированные интерфейсы для разных бизнес-вертикалей
Возможность real-time обработки для продуктов с жесткими требованиями к latency

Модель превзошла международные аналоги от OpenAI, Google и Anthropic в российском бенчмарке MERA, заняв первое место среди облегченных моделей до 10 млрд параметров.

Обучение: как в Авито развивали собственную модель

Выбрали подход создания собственной модели на базе открытых решений вместо использования проприетарных API и разработки модели с нуля. Это решение обусловлено несколькими факторами:

Безопасность данных и контроль над процессом
Более низкие затраты ресурсов
Развитие внутренней экспертизы в области LLM
Возможность точной настройки под специфику Авито
Митигация рисков зависимости от внешних поставщиков

Трехэтапный процесс обучения:

1. Адаптация токенизатора

В базовой модели заменили стандартный токенизатор на собственную реализацию. Далее модель обучали в два этапа: сначала — только эмбеддинг-слой, отвечающий за работу с новыми токенами, затем — полное дообучение всей модели. В качестве задачи использовали предсказание следующего токена — стандартный подход при обучении языковых моделей.

2. Этап SFT (Supervised Fine-Tuning)

На этом этапе модель обучалась понимать системные промпты, поддерживать диалог и корректно отвечать на вопросы. Для обучения использовался датасет, включающий более 800 тысяч примеров вопросов, ответов и диалогов.

3. Этап DPO (Direct Preference Optimization)

Финальный этап был направлен на повышение безопасности модели и улучшение качества генерации. Команда составила более 2000 провокационных вопросов с правильными ответами. Для генерации и оценки альтернативных ответов использовались крупные open-source модели.

Источники данных для обучения

Open-source датасеты — открытые корпуса текстов на русском и английском языках
Обезличенные данные Авито — тексты с платформы без персональной информации
Код на разных языках программирования — для улучшения способностей модели к программированию
Синтетические данные — сгенерированные большими моделями вопросы и ответы
Логи внутреннего использования — записи общения сотрудников Авито с LLM для тестирования
Общий объем: более 700 миллиардов токенов для базового обучения + 800 тысяч примеров диалогов для финальной настройки.

Контроль качества данных

Во время этапа SFT за качеством данных следит большая языковая модель — она автоматически оценивает примеры и убирает из датасета те, что не подходят. Важно, чтобы датасет оставался не только чистым, но и разнообразным по темам, поэтому команда следит, чтобы в нем было представлено как можно больше разных контекстов. Отдельная модель помогает понять, какие ответы получаются лучше, а какие стоит доработать.

Ключевые сценарии использования LLM в Авито

Нейро-описания объявлений — автоматически создают продающие тексты товаров. Помогают частным продавцам составлять качественные описания без опыта копирайтинга.
Нейро-подсказки в мессенджере — предлагают готовые ответы в переписке между покупателями и продавцами. Ускоряют общение и помогают быстрее договориться о сделке.
Нейро-ассистент — отвечает за продавцов на вопросы покупателей о товарах. Консультирует по наличию и характеристикам без участия человека.
Автоматическая разметка тегами — определяет характеристики товара по фото и добавляет в поисковый индекс специальные невидимые теги. Улучшает поиск даже когда продавец не указал параметры.
Мульти-объявления — объединяет варианты одного товара (цвета, размеры) в одно объявление. Нейросеть автоматически извлекает параметры из текста.
Авито Авто: анализ звонков — определяет готовность клиентов к покупке по разговорам с дилерами. Находит до 30% готовых покупателей, рост сделок на 5,6%.
Улучшение отчетов в Автотеке – нейросеть автоматически обрабатывает данные о ремонтах и ДТП из различных источников (страховые, сервисы, ГИБДД), расшифровывает технические термины и создает понятные отчеты с визуальной схемой повреждений автомобиля.
Авито Работа: улучшение резюме — помогает соискателям создавать более качественные тексты резюме.
Авито Услуги: нейро-отзывы — создает краткий пересказ множества отзывов об исполнителях услуг.

Эффект от внедрения LLM в Авито

В 2024 году, первом году активного внедрения GenAI, Авито получил 670 млн рублей выручки от продуктов на основе больших языковых моделей. На 2025 год запланировано более 1 млрд рублей от 20 новых сценариев, а к 2028 году компания ожидает 21 млрд рублей выручки при инвестициях 12 млрд рублей.

Авито использует комплексную систему метрик, включающую как продуктовые показатели (конверсии, активность пользователей), так и технические параметры (скорость, точность), что позволяет измерять ROI каждого направления.

Инсайты от команды Авито

Человеческая экспертиза как часть продукта

В ключевых технологиях нужно растить экспертизу в команде с первого дня, а не стараться положиться на вендоров.

Безопасность — не дополнение, а основа архитектуры

Модели могут генерировать неподходящий и даже вредный контент, поэтому принципы безопасности генерируемого контента нужно закладывать на этапе обучения.

Оценка качества генеративных моделей

В отличие от классических ML-задач, здесь нет единственно правильного подхода к оцениванию. Модель может сгенерировать совершенно другой текст, но он тоже будет хорошим. Автоматические метрики часто бесполезны, всегда нужны люди для оценки. Это кардинально влияет на скорость разработки и стоимость проектов.

Планы по развитию GenAI в Авито

В 2025 году команда собирается запустить 20 новых сценариев использования генеративного AI — у них большой потенциал, общий объем выручки может превысить миллиард рублей.

Один из приоритетов — максимально упростить процесс подачи объявлений. Глобальная цель — свести весь процесс к минимуму действий от пользователя: сфотографировал товар, получил готовое объявление с описанием, ценой и всеми характеристиками.

Еще одно направление — развитие умного поискового ассистента, который будет помогать пользователям находить товары через естественное общение. Вместо сложных фильтров — простой диалог на обычном языке с персонализированными рекомендациями.

Хотите решить похожую задачу?

Мы расскажем, с чего начать!

Хеппивеар и аналитика отзывов на маркетплейсе

GigaChat для обработки 180 000 отзывов в месяц, поиска багов и повышения лояльности

Nedra Digital и AI в геологоразведке

Синтетические аэрофотоснимки для геологоразведки

12Storeez и интеллектуальный анализ отзывов

Расширенные возможности анализа отзывов клиентов на базе GenAI