Как Doubletapp создала AI-ассистента для поиска информации по сотне IT-докладов

25 и 26 июня Спикеры из Ozon, Совкомбанка, Лаборатории Касперского, Just AI, X5, BIOCAD, VK и других компаний на главной конференции по GenAI

Купить билет

Поделиться кейсом

Generation AI Awards

Команда Doubletapp

Контент и медиа

Как AI‑ассистент помогает искать знания в IT‑докладах: эксперимент с RAG и LLM

Doubletapp — IT-компания из Екатеринбурга, с 2015 года занимается разработкой цифровых продуктов полного цикла. С 2017 года активно развивает ML-направление: создает экспертные датасеты для обучения LLM, интегрирует LLM и RAG-решения в бизнес-процессы, автоматизирует HR- и клиентские процессы, проектирует интеллектуальные системы анализа фото и видео. Работа ведется как в формате кастомной разработки, так и через интеграцию коробочных решений.

Задача

На отраслевых IT-конференциях звучит множество полезной информации: про управление командами, найм, делегирование, продажи, рост. Но на практике у этих знаний короткий срок жизни. Если спикер не оформил доклад в статью, материал почти наверняка затеряется в часовом видео на YouTube.

 

В компании регулярно работают с подобным контентом в роли организаторов, участников и подрядчиков. В какой-то момент встал вопрос: «А можно ли построить сервис, который даст вторую жизнь знаниям из докладов?»

 

Так появился Digital Guru — экспериментальный AI-ассистент, обученный на базе транскрибированных видеодокладов. Пользователь задает вопрос — бот находит фрагменты выступлений, откуда можно извлечь ответ, и аккуратно подбирает формулировку, сохраняя связь с первоисточником.

Технологии под капотом

  • В качестве языка разработки использовался Python

 

  • Для работы с Telegram-ботом применялась библиотека python-telegram-bot

 

  • Для упрощения разработки RAG-системы использовалась библиотека LangChain — она позволила быстро собрать пайплайн из операций: создания вектора для запроса, поиска в векторной базе, преобразования чанков и генерации ответа в LLM

 

  • Векторная база реализована на Chroma DB — она обладает удобной лицензией, хорошо интегрирована с LangChain и соответствует требованиям команды (например, по хранению метаданных)

 

  • В качестве LLM использована ChatGPT 4.1 — мощная модель с адекватной стоимостью

Почему команда выбрала RAG

Разработчики не стремились создать чат-бота, который выдумывает ответы или пересказывает общий смысл. Им была важна привязка к исходному контенту, чтобы пользователь мог перейти к докладу и изучить его целиком.

 

Поэтому архитектура Retrieval-Augmented Generation (RAG) показалась оптимальной: она позволяет искать релевантные фрагменты в базе знаний и использовать их как контекст для генерации ответа.

Как это устроено: от сбора данных до генерации ответа

Технически Digital Guru — это веб-интерфейс и Telegram-бот, подключенный к пайплайну, состоящему из следующих этапов:

 

1. Сбор данных

 

Команда собрала несколько сотен видеозаписей докладов за последние два года с разных диджитал-конференций. Для сбора данных написали скрипт, которому можно передать список адресов видео или плейлистов на YouTube — он получал названия и скачивал аудио нужных видеозаписей.

 

2. Транскрибация и нарезка

 

После скачивания видео транскрибируется через Whisper и разбивается на короткие смысловые фрагменты — чанки.

 

3. Создание векторной базы

 

На этом этапе подключается эмбеддер, чтобы превратить каждый чанк в вектор — эмбеддинг. Это и стало ядром базы знаний.

 

4. Поиск и генерация

 

Когда пользователь задает вопрос, система:

  • превращает его в эмбеддинг,
  • ищет близкие по смыслу чанки,
  • по частоте встречаемых чанков выбирает полный текст видео на релевантную тему,
  • передает их и сам вопрос в LLM (в виде промпта),
  • получает структурированный, точный и связанный с источником ответ.

 

5. Отправка ссылки на доклад

 

Каждый ответ содержит гиперссылку на видео — именно на тот фрагмент, откуда взята информация.

Сложности, гипотезы и открытые вопросы

Одних чанков недостаточно

В ходе тестирования выяснилось, что стандартного RAG-подхода, при котором в контекст подаются чанки, недостаточно для качественного и внятного ответа. Поэтому в контекст стали передавать целиком расшифровки нескольких видео, чанки из которых встречались чаще всего.

Пользователи ждут ссылку

Один из ключевых инсайтов — людям важно не только получить ответ, но и убедиться, что он взят из надежного источника. Поэтому ссылка на оригинальный доклад стала обязательным элементом интерфейса.

Результаты: тест на живой аудитории

Впервые Digital Guru был представлен на ежегодной конференции для руководителей IT-компаний, IT-отделов и digital-агентств AGDays в Екатеринбурге. Там он помогал участникам:

 

  • Находить информацию по текущим и прошлым докладам
  • Вспоминать, кто и что говорил год назад
  • Использовать сервис для более эффективного нетворкинга

Результаты:

17,6% участников воспользовались ботом

121 уникальный вопрос

10+ благодарностей от участников и спикеров

Советы тем, кто планирует запуск RAG‑системы

  • Потратьте время на подготовку данных: смысловая сегментация и чистота транскрибации — залог релевантности.
  • Не делайте ставку только на генерацию. Линк на источник повышает доверие и вовлеченность.
  • Если сомневаетесь между дообучением LLM и улучшением поиска — сначала улучшите поиск.

Планы на будущее

Digital Guru — не просто разовый эксперимент с LLM. Команда убедилась, что RAG действительно помогает сохранить ценный контент, а не просто сгенерировать что-то похожее.

 

Выводы команды:

1. Generative AI — это не только про автоматизацию, но и про усиление человека.

2. Качественный контекст важнее, чем большая модель.

3. Простые интерфейсы (например, Telegram) работают лучше, чем сложные корпоративные панели.

 

Сейчас решение масштабируется: готовится версия для отраслевого сообщества за пределами ивентов и расширяется база знаний.

 

Аналогичную архитектуру команда использует в параллельных проектах — для автоматизации работы с корпоративными документами, запросами в HR и поддержки клиентов. Например, разработали умного помощника для заказчика, чтобы сотрудники могли быстро получать ответы и инструкции из базы учебных видеокурсов.

Хотите решить похожую задачу?

Мы расскажем, с чего начать!

Оставить заявку