Как работает RAG и где он используется

27 февраля 2025

Редактор: Дмитрий Черноус

Как применяются ИИ-помощники в банковском секторе, розничной торговле, машиностроении, энергетике, электронике и IT

Эту статью написал участник сообщества

Дмитрий Черноус

Руководитель группы консалтинга MTS AI

MTS AI

Один из ведущих центров компетенций по ИИ в России

Редакция Бизнес-секретов бережно сохранила авторский стиль, орфографию и пунктуацию

Написать статью

По прогнозу исследования «Генеративный ИИ в странах БРИКС+: тренды и перспективы» консалтинговой компании «Яков и партнёры», эффект от внедрения технологий генеративного искусственного интеллекта в этих странах к 2030 году может составить 350-600 млрд. долларов. Около 70% эффекта придется на шесть ключевых отраслей — банковский сектор, розничную торговлю, машиностроение, энергетику, электронику и ИТ.

Реальность пока иная — крупный бизнес пробует генеративный ИИ, но пока реализованных проектов не так много. Среди успешных примеров можно выделить применение ИИ-помощников на базе генеративного искусственного интеллекта и метода RAG (Retrieval-Augmented Generation) — генерация с извлечением данных. С его помощью можно в реальном времени осуществлять поиск по внутренней базе знаний компании и быстро получать полные и точные ответы на запросы пользователя.

Как работает RAG

Большие языковые модели (LLM), такие как ChatGPT, создают ответы на основе информации, полученной во время обучения, что ограничивает их способность учитывать изменения в реальном времени.

Пример ответов ChatGPT — Начало диалога с ChatGPT и пример его ответов

Например, компания хочет создать чат-бота, который будет автоматически отвечать на вопросы клиентов о продуктах и услугах. На первый взгляд, кажется логичным обучить модель на внутренних документах, но эта информация может устареть, и чат-бот начнет давать неверные или неточные ответы. Здесь на помощь приходит RAG. Он обращается к актуальной базе знаний, когда поступает вопрос, ищет свежую информацию и передает ее в языковую модель, которая генерирует ответ. Представьте себе сервис Нейро от Яндекса, но поиск осуществляется только по вашей компании и выбранным вами другими необходимыми данными.

Использование сервиса Нейро от Яндекса — Пример взаимодействия и поиска информации через сервис Нейро от Яндекса

На практике метод работает следующим образом:

Одна или несколько баз знаний компании проходят операцию индексирования.
Пользователь задает вопрос большой языковой модели.
Большая языковая модель преобразует вопрос в некоторое внутреннее представление для удобства поиска по построенным индексам, это преобразование может включать в себя также классификацию, извлечение атрибутов из вопроса, переформулирование и нормализацию.
Полученное представление вопроса отправляется в индекс, и RAG подбирает подходящий ответ, состоящий из нескольких фрагментов информации, а затем добавляет найденную информацию к вопросу пользователя.
В языковую модель поступает и сам запрос, и дополнительная релевантная информация от RAG.
LLM, получив больше контекста, дает полный ответ — предоставляет суммаризацию данных, отчет по ним и т.д., такой ответ может быть дан в соответствии с тем, как именно был задан вопрос: это могут быть бинарные ответы, инструкции, разъяснения и даже оформленные по шаблону документы.

Таким образом, RAG позволяет большим языковым моделям преодолеть ограничения, связанные с устареванием данных и галлюцинациями.

Из чего состоит RAG

RAG состоит из нескольких ключевых компонентов, каждый из которых играет важную роль в процессе обработки запросов:

Базы знаний — проиндексированные источники, по которым составляются ответы. Документы разбиваются на отдельные фрагменты — чанки, векторизуются одной или несколькими моделями построения эмбеддингов (это могут быть или не быть LLM) и сохраняются в векторной базе данных для быстрого поиска.

Поиск (retriever) — cервис, отвечающий за поиск релевантных запросу фрагментов. В случае, если подходящей информации не будет, модель не будет придумывать запрос и ответит, что у нее нет нужной информации. На этом же этапе происходит контроль прав доступа.

Большая языковая модель (LLM) — отвечает за генерацию ответа как по общим знаниям, так и по найденным фрагментам. Во время ответа она учитывает разные промпты — инструкции о том, в каком формате предоставить ответ или что отвечать, если необходимой информации не нашлось.

Модуль статистики: в нашем решении есть также сервис по обработке полученных результатов, который позволяет оценивать полученные ответы и формировать отчеты по качеству работы нейросети.

Благодаря такому подходу RAG обеспечивает высокую релевантность ответов, что делает его идеальным решением для задач, требующих работы с постоянно обновляемой информацией.

Сценарий 1. Клиентская поддержка, чат-боты и виртуальные помощники

RAG используется для автоматизации ответов на вопросы клиентов и особенно полезен в чат-ботах и различных виртуальных помощниках. Этот сценарий применим во всех отраслях. Например, клиент банка спрашивает: «Какие условия для получения ипотеки?» Система находит актуальную информацию из внутренних документов банка (условия кредитования) и генерирует точный и понятный ответ, в т.ч. на основе нескольких документов, при этом ссылки на оригиналы также могут быть предоставлены.

Магазин. Например, ритейлер хочет внедрить RAG в клиентскую поддержку для автоматизации поиска по характеристикам товара. Клиента интересует, есть ли у телефона защита от влаги. Система находит информацию о характеристиках товара и генерирует точный ответ. Поиск можно настроить несколькими способами — сервис может искать в инструкции, предоставленной самим магазином, и в инструкции на сайте производителя телефона.

Сценарий 2. Онбординг и обучение сотрудников

Это один из самых популярных сценариев. RAG позволяет получить быстрый доступ к базе знаний компании.

Машиностроение. Новый сотрудник спрашивает: «Как работает система охлаждение шпинделя станка ЧПУ?» RAG находит информацию из технического руководства и генерирует понятное объяснение.

IT. Если программист не может исправить ошибку в коде на Python, то RAG находит похожие решения в базах знаний (например, Stack Overflow), кодовой базе компании и создаёт пример исправленного кода.

Телеком. Сотрудник колл-центра ищет правила переноса номера с одного оператора на другой — RAG выдаёт актуальный алгоритм действий.

Сценарий 3. Техническая поддержка

Когда клиент обращается в техподдержку с вопросом, система RAG сначала анализирует запрос и ищет подходящую информацию в базах знаний, документации, FAQ или других источниках. Например, если пользователь спрашивает: «Как сбросить телевизор до заводских настроек?», модель RAG ищет инструкции в технической документации или статьях поддержки.

Пример ответов сервиса Нейро от Яндекса — Пример ответа сервиса Нейро от Яндекса на конкретный запрос

Ещё одно преимущество RAG — доступ к прецедентам. Проще говоря, у сотрудника есть возможность оперативно посмотреть, как аналогичные случаи решались в прошлом. Например, частная клиника хочет создать ИИ-помощника с RAG, чтобы не только следить за результатами анализов и историей болезни пациента, а затем дополнять их сведениями о лекарствах, исследованиях или услугах клиники, но и получать данные об аналогичных случаях с другими пациентами.

Машиностроение. Инженер задает вопрос: «Как устранить ошибку в работе станка Fanuc DS0300 — села батарейка?» RAG находит соответствующую документацию или инструкции и создаёт пошаговое руководство для решения проблемы.

Сценарий 4. Анализ рисков

Также один популярных сценариев — LLM и RAG для аналитических задач, в частности для кредитного скоринга. Применить эти технологии возможно для того, чтобы анализировать неструктурированные исторические данные о заемщике из нескольких источников, нормализовывать их, нивелируя особенности и различия форматов, происхождения и систем хранения, применять формулы и генерировать отчеты с рекомендациями для сотрудника банка.

В этом случае RAG работает как универсальный слой доступа к информации, который формирует выводы на естественном языке или по шаблону, опираясь на наиболее полную информацию о заёмщике. Сама по себе строгая аналитика, алгоритмы больших данных или прогнозные модели не являются частью RAG, но пользуются полученной с его помощью преобразованной информацией, а также передают ему результаты для генерации понятного сотруднику банка ответа и аргументации.

Сценарий 5. Обращения граждан

RAG-поиск как шаблон проектирования универсален, когда речь идёт об обработке и подготовке любой информации внутри компании или организации. Сценарии похожи друг на друга и отличаются тематикой документов, характером запросов и требованиями к ответу.

Такой поиск может быть многоступенчатым, как в сценарии обращений граждан, где сначала полученное обращение разбивается LLM на несколько запросов, каждый из которых классифицируется, при обращении к одной базе знаний RAG определяет ответственный департамент или сотрудника, при обращении к другой — подбирается фактура для ответа на основе нормативных актов, иных регламентов и истории обращений, при обращений к третьей — подбирается шаблон ответа, который обогащается полученной информацией. На выходе мы имеем проект ответа по существу всех перечисленных в общении запросов и проблем, переданный ответственному сотруднику на проверку и подпись.

Взгляд в будущее

Уже сейчас идет работа над улучшением технологии RAG и созданием дополнительных функций, которые позволят ей решать принципиально новые задачи.

Среди них:

Понимание контекста — программа учитывает контекст разговора или задачи, чтобы дать более подходящий ответ. Это как мы с друзьями обсуждаем новый фильм, они помнят, о чем мы говорили раньше, и отвечают в рамках этой темы.
Мультимодальный поиск — способность искать не только тексты, но и изображения и видео.
Интерактивный поиск — возможность запрашивать и вносить уточнения после отправления запроса.
Мультиагентные сценарии — возможность объединения самостоятельно принимающих решение поисковых агентов, каждый из которых решает часть общей поисковой задачи, выбирает источники данных и язычковые модели для подготовки ответов.

Важно помнить, что внедрение любых инноваций — это процесс, требующий значительных усилий. Однако с учетом потенциала улучшений, которые принесет технология RAG, инвестиции оправданы. Новая функциональность поможет превратить RAG в незаменимый инструмент для автоматизации процессов, улучшения качества услуг и повышения эффективности работы в самых разных сферах.

Бесплатно открыть ИП и счет для бизнеса

Когда RAG на горе свистнет

Дмитрий Черноус

MTS AI

Дмитрий Черноус

MTS AI

Как работает RAG

Из чего состоит RAG

Сценарий 1. Клиентская поддержка, чат-боты и виртуальные помощники

Сценарий 2. Онбординг и обучение сотрудников

Сценарий 3. Техническая поддержка

Сценарий 4. Анализ рисков

Сценарий 5. Обращения граждан

Взгляд в будущее

Как выжить на маркетплейсах в 2025

Расчетный счет для бизнеса

О чем хотите спросить автора статьи? Пишите вопросы в комментариях.

Личный опыт

Добавьте почту