Тренд на RAG: разбираем новый стандарт архитектуры GenAI

Классические LLM не всегда могут дать корректный ответ: иногда они генерируют устаревшие данные. И это нормально: у них просто нет доступа к актуальному контексту. RAG решает эту проблему, потому что сочетает возможности LLM с динамическим поиском по внешним и внутренним базам знаний.

В статье разберем, что такое этот ваш RAG, какие технологии внутри него и на что компании делают упор. А еще расскажем, что ждет RAG как технологию в 2025 и почему это уже мощный тренд.

Главные технологии RAG

Векторные базы данных: поиск по смыслу, а не по словам

Сердце RAG-системы — хранилище векторных представлений документов. Текстовые данные (документы, статьи, FAQ и пр.) разбиваются на фрагменты и кодируются в числовые векторы с помощью encoder models. Эти векторы индексируются так, чтобы по запросу можно было быстро найти семантически близкие фрагменты.

Допустим, пользователь вводит запрос: «Как настроить безопасное соединение?». Векторная база данных на базе RAG найдет фрагмент с описанием «Настройка SSL/TLS», даже если точного совпадения по словам нет. Это полезно для поиска в технической документации, FAQ и базах знаний.

Encoder models: как сделать поиск точным

Для перевода текста в векторы применяются специальные модели. Например, OpenAI предлагает модель text-embedding-ada-002 для получения векторов из текста — она широко используется в RAG-пайплайнах с GPT-4.

Правильный выбор embedding-модели критичен: от качества эмбеддингов зависит, найдется ли нужный контекст для ответа. Тренд последних лет — Instruct-embeddings, то есть модели, обученные давать векторное представление с учетом намерения запроса, что повышает точность поиска по смыслу.

LLM для генерации: превращаем данные в ответы

Еще один ключевой компонент — генеративная модель, которая из запроса пользователя и извлеченных фрагментов знаний составляет связный ответ. Можно использовать любую LLM, способную воспринять дополненный контекст. В большинстве случаев это либо API от OpenAI, либо собственные модели компаний. Важно, чтобы модель поддерживала большое окно контекста, так как ей нужно поместить и вопрос, и найденные тексты.

Фреймворки: внедрение RAG без разработки

Построение RAG-системы включает кучу вспомогательных этапов: конвертация документов из PDF или DOCX в текст, разбиение на чанки, векторизация, организация индекса, генерация ответа и пост-обработка.

Для ускорения разработки существуют готовые фреймворки, например, такие, которые позволяют связать LLM с векторными хранилищами. Эти библиотеки берут на себя многие детали: можно указать путь к папке с документами — и за пару команд получить готовый REST API для вопросно-ответной системы на их основе.

Еще один вариант ускорить внедрение RAG — использовать готовое решение. Вы можете загрузить документацию и инструкции в Jay Knowledge Hub, проиндексировать их, а затем получать ответы с использованием этой информации. Читайте, как это сделали в КНАУФ

Контроль качества и безопасность с помощью RAG

Поскольку LLM склонны иногда «выдумывать» ответ, в RAG-практиках все чаще используются дополнительные надстройки: Guardrails, Moderation API, LLM-checkers. Эти инструменты не уникальны для RAG, но особенно важны в связке с генерацией по внутренним данным: компании требуют, чтобы ответы не только были фактически верны, но и не разглашали лишнего.

Поэтому иногда внедряют ролевые модели и политики, ограничивающие, какой контент можно выдавать пользователю (например, чтобы внутренний бот не цитировал конфиденциальный документ целиком).

Вокруг LLM-систем формируется слой обеспечения надежности: отслеживание ошибок, журналирование запросов/ответов, а для RAG – еще и оценка полноты поиска (не пропустил ли поисковый модуль важный документ).

RAG и бизнес-применение

Расскажем о самых популярных вариантах использования RAG, которые уже обкатывают в компаниях.

Чат-бот для коммуникации с клиентами

Чат-боты на базе RAG могут анализировать внутренние технические характеристики продуктов, отзывы клиентов и рекомендации производителей. Например, клиент спросит: «Какой цемент лучше всего подходит для заливки фундамента в условиях повышенной влажности?» А чат-бот на базе RAG, в отличие от обычной LLM, найдет точный ответ в базе данных компании и даст конкретную рекомендацию из каталога компании.

Техническая поддержка

В поддержки RAG будет полезен для анализа описаний проблем и поиска аналогичных случаев в базе знаний. Например, у строителя возникла проблема с использованием материала. LLM с RAG сможет проанализировать проблему, проверить внутренние гайдлайны компании и предложить релевантное решение.

Умные корпоративные ассистенты

RAG позволяет сотрудникам быстрее находить информацию в больших массивах данных. Можно интегрировать данные из CRM, ERP и HR-систем с внешними источниками, такими как отраслевые отчеты и API. Например, маркетинговый отдел может анализировать отзывы клиентов и веб-аналитику для автоматического формирования отчетов, а HR-команда — ускорять подбор персонала за счет извлечения ключевой информации из резюме.

Фишка RAG в том, что бизнесу не нужно поддерживать актуальность данных так, как в случае с LLM. Без RAG пришлось бы регулярно обновлять цены, перечень товаров, отчетов — LLM пришлось бы обучать заново, а это всегда очень дорого. К тому же, если LLM получит запрос, который не будет входить в ту часть данных, на основе которых ее обучили, то она может выдавать ответы с галлюцинациями.

Тренды RAG в 2025: куда движется рынок

Широкое внедрение в компаниях и рост инвестиций

В 2024 году был взрывной ростом интереса к генеративному AI, и RAG стал стандартом для построения корпоративных AI-ассистентов. По данным Menlo Ventures, доля приложений с RAG выросла с ~31% до 51% всего за 2024 год — более половины компаний теперь используют RAG, тогда как доля fine-tuning моделей упала до 9%. Это значит, что компании предпочитают подмешивать свои данные в LLM при инференсе, нежели заниматься долгим и дорогим тренингом под каждую задачу.

От решения проблем галлюцинаций — к расширению возможностей модели

Изначально RAG рассматривался как «костыль» для решения ограничений LLM (статичность данных, галлюцинации). Однако сейчас роль RAG переосмысливается: это способ наделить модель доступом к динамическим данным и сделать ее частью более сложных цепочек рассуждений.

Появляется концепция AI-агентов, которые могут не только ответить по известной базе знаний, но и совершить действия: выполнить поиск, затем расчет, затем снова поиск, чтобы достичь цели. RAG здесь — компонент, позволяющий агенту при необходимости «спросить у базы/интернета» и использовать полученную информацию в своих шагах. 2024 год называют годом всплеска интереса к агентам, и в 2025 эта волна продолжится.

Решение проблемы данных: подготовка и обработка корпоративных знаний

Качество RAG-решения напрямую зависит от качества данных: если корпоративные документы хаотично разбросаны и слабо связаны, никакая супер-модель не вытащит из них смысл. Поэтому еще один тренд — инвестиции во внутренние хранилища знаний. Согласно исследованию MIT Sloan, компании пересматривают старые системы управления документами, вспоминают про концепции knowledge management.

Появляются и новые инструменты, помогающие автоматизировать подготовку данных — от парсеров и классификаторов документов до облачных «интеграторов» ко всем внутренним системам, чтобы собрать знания воедино. Но пока что, как отмечает MIT Sloan, загрузить «как есть» все документы в окно ChatGPT — не панацея: нужны люди, которые укажут модели, какие данные верные и важные. В краткосрочной перспективе роль человека в цикле RAG остается существенной — хотя бы на этапе верификации и отбора контента.

Комбинирование RAG с обучением моделей

Некоторые специалисты полагают, что на одних только подсказках и выборке далеко не уедешь, и предсказывают возврат интереса к дообучению моделей под свои данные, но в новом виде. Так, в обзоре Madrona Ventures указано, что RAG — это лишь отправная точка, а впереди — эволюция архитектуры AI+Data.

В 2025 году компаниям, вероятно, придется сочетать несколько подходов: использовать предобученные большие модели для общего понимания, среднеобучение (mid-training) – включать свои датасеты еще на стадии обучения модели-основы, финальное дообучение (fine-tuning) под конкретные задачи, а помимо этого — применять методы reinforcement learning и более длинные вычислительные цепочки при выводе (chain-of-thought, reasoning).

Все эти техники будут дополнять RAG, чтобы преодолеть его ограничения. Проще говоря, если данные компании сильно специфичны и не похожи на то, на чем училась LLM, то одной лишь подстановкой контекстов может не хватить — модель не сможет правильно интерпретировать данные.

Ожидается, что в 2025 появятся более простые инструменты для fine-tuning без больших затрат, и организации смогут обучать «частные LLM» на своих текстах, комбинируя это с RAG для актуальности. То есть формируется многоуровневая стратегия: общая LLM (общие знания) → специализированная модель (знания отрасли) → RAG (знания компании в данный момент). Это позволит AI давать ответы, максимально близкие по стилю и сути к тому, что нужно конкретному бизнесу.

Вывод

RAG уже стал бизнес-стандартом в AI-решениях. Компании, которые внедряют эту технологию, получают не просто чат-ботов, а мощные инструменты автоматизации и анализа.

Технологический стек вокруг RAG активно развивается: появляются более совершенные модели, базы и фреймворки, упрощающие внедрение. RAG фактически превращает статичные LLM в живые базы знаний с доступом к актуальной информации, — и именно в этом направлении и есть будущее корпоративного AI на 2025 годы.

«RAG уже активно меняет подход к поиску данных и становится одним из самых перспективных кейсов применения LLM для бизнеса в России. Если раньше поиск информации был удобен только в публичном секторе (через поисковики), сейчас он становится простым и доступным и в закрытом контуре компаний.

За счет прямого внедрения в инфраструктуру компании через интеграции с инструментами, например, Jira и Confluence, мы получаем полноценного поискового агента, говорящего на естественном языке и доступном для бизнеса любого размера. А с развитием AI-агентов этот инструмент станет уже не просто поисковиком, но и активным участником работы, который сможет выполнять рутинные действия (в перспективе и довольно сложные типа создания годового отчета) за человека».

Виталий Виноградов

Product owner в Just AI:

Вопрос теперь не в том, нужно ли внедрять RAG, а в том, как правильно его интегрировать в бизнес-процессы.

Другие материалы

Международные стартапы с генеративным AI

Тренды зарубежных стартапов на базе генеративного AI

Нейросети в российском ритейле

Кейсы применения генеративного ИИ от Ozon, X5 и Ecom.tech

Устройство стартапа по созданию презентаций с помощью нейросетей

Как придумать продукт на рынке генеративного искусственного интеллекта