По прогнозу исследования «Генеративный ИИ в странах БРИКС+: тренды и перспективы» консалтинговой компании «Яков и партнёры», эффект от внедрения технологий генеративного искусственного интеллекта в этих странах к 2030 году может составить 350-600 млрд. долларов. Около 70% эффекта придется на шесть ключевых отраслей — банковский сектор, розничную торговлю, машиностроение, энергетику, электронику и ИТ.
Реальность пока иная — крупный бизнес пробует генеративный ИИ, но пока реализованных проектов не так много. Среди успешных примеров можно выделить применение ИИ-помощников на базе генеративного искусственного интеллекта и метода RAG (Retrieval-Augmented Generation) — генерация с извлечением данных. С его помощью можно в реальном времени осуществлять поиск по внутренней базе знаний компании и быстро получать полные и точные ответы на запросы пользователя.
Как работает RAG
Большие языковые модели (LLM), такие как ChatGPT, создают ответы на основе информации, полученной во время обучения, что ограничивает их способность учитывать изменения в реальном времени.

Например, компания хочет создать чат-бота, который будет автоматически отвечать на вопросы клиентов о продуктах и услугах. На первый взгляд, кажется логичным обучить модель на внутренних документах, но эта информация может устареть, и чат-бот начнет давать неверные или неточные ответы. Здесь на помощь приходит RAG. Он обращается к актуальной базе знаний, когда поступает вопрос, ищет свежую информацию и передает ее в языковую модель, которая генерирует ответ. Представьте себе сервис Нейро от Яндекса, но поиск осуществляется только по вашей компании и выбранным вами другими необходимыми данными.

На практике метод работает следующим образом:
- Одна или несколько баз знаний компании проходят операцию индексирования.
- Пользователь задает вопрос большой языковой модели.
- Большая языковая модель преобразует вопрос в некоторое внутреннее представление для удобства поиска по построенным индексам, это преобразование может включать в себя также классификацию, извлечение атрибутов из вопроса, переформулирование и нормализацию.
- Полученное представление вопроса отправляется в индекс, и RAG подбирает подходящий ответ, состоящий из нескольких фрагментов информации, а затем добавляет найденную информацию к вопросу пользователя.
- В языковую модель поступает и сам запрос, и дополнительная релевантная информация от RAG.
- LLM, получив больше контекста, дает полный ответ — предоставляет суммаризацию данных, отчет по ним и т.д., такой ответ может быть дан в соответствии с тем, как именно был задан вопрос: это могут быть бинарные ответы, инструкции, разъяснения и даже оформленные по шаблону документы.
Таким образом, RAG позволяет большим языковым моделям преодолеть ограничения, связанные с устареванием данных и галлюцинациями.
Из чего состоит RAG
RAG состоит из нескольких ключевых компонентов, каждый из которых играет важную роль в процессе обработки запросов:
Базы знаний — проиндексированные источники, по которым составляются ответы. Документы разбиваются на отдельные фрагменты — чанки, векторизуются одной или несколькими моделями построения эмбеддингов (это могут быть или не быть LLM) и сохраняются в векторной базе данных для быстрого поиска.
Поиск (retriever) — cервис, отвечающий за поиск релевантных запросу фрагментов. В случае, если подходящей информации не будет, модель не будет придумывать запрос и ответит, что у нее нет нужной информации. На этом же этапе происходит контроль прав доступа.
Большая языковая модель (LLM) — отвечает за генерацию ответа как по общим знаниям, так и по найденным фрагментам. Во время ответа она учитывает разные промпты — инструкции о том, в каком формате предоставить ответ или что отвечать, если необходимой информации не нашлось.
Модуль статистики: в нашем решении есть также сервис по обработке полученных результатов, который позволяет оценивать полученные ответы и формировать отчеты по качеству работы нейросети.
Благодаря такому подходу RAG обеспечивает высокую релевантность ответов, что делает его идеальным решением для задач, требующих работы с постоянно обновляемой информацией.
Сценарий 1. Клиентская поддержка, чат-боты и виртуальные помощники
RAG используется для автоматизации ответов на вопросы клиентов и особенно полезен в чат-ботах и различных виртуальных помощниках. Этот сценарий применим во всех отраслях. Например, клиент банка спрашивает: «Какие условия для получения ипотеки?» Система находит актуальную информацию из внутренних документов банка (условия кредитования) и генерирует точный и понятный ответ, в т.ч. на основе нескольких документов, при этом ссылки на оригиналы также могут быть предоставлены.
Магазин. Например, ритейлер хочет внедрить RAG в клиентскую поддержку для автоматизации поиска по характеристикам товара. Клиента интересует, есть ли у телефона защита от влаги. Система находит информацию о характеристиках товара и генерирует точный ответ. Поиск можно настроить несколькими способами — сервис может искать в инструкции, предоставленной самим магазином, и в инструкции на сайте производителя телефона.
Сценарий 2. Онбординг и обучение сотрудников
Это один из самых популярных сценариев. RAG позволяет получить быстрый доступ к базе знаний компании.
Машиностроение. Новый сотрудник спрашивает: «Как работает система охлаждение шпинделя станка ЧПУ?» RAG находит информацию из технического руководства и генерирует понятное объяснение.
IT. Если программист не может исправить ошибку в коде на Python, то RAG находит похожие решения в базах знаний (например, Stack Overflow), кодовой базе компании и создаёт пример исправленного кода.
Телеком. Сотрудник колл-центра ищет правила переноса номера с одного оператора на другой — RAG выдаёт актуальный алгоритм действий.
Сценарий 3. Техническая поддержка
Когда клиент обращается в техподдержку с вопросом, система RAG сначала анализирует запрос и ищет подходящую информацию в базах знаний, документации, FAQ или других источниках. Например, если пользователь спрашивает: «Как сбросить телевизор до заводских настроек?», модель RAG ищет инструкции в технической документации или статьях поддержки.

Ещё одно преимущество RAG — доступ к прецедентам. Проще говоря, у сотрудника есть возможность оперативно посмотреть, как аналогичные случаи решались в прошлом. Например, частная клиника хочет создать ИИ-помощника с RAG, чтобы не только следить за результатами анализов и историей болезни пациента, а затем дополнять их сведениями о лекарствах, исследованиях или услугах клиники, но и получать данные об аналогичных случаях с другими пациентами.
Машиностроение. Инженер задает вопрос: «Как устранить ошибку в работе станка Fanuc DS0300 — села батарейка?» RAG находит соответствующую документацию или инструкции и создаёт пошаговое руководство для решения проблемы.
Сценарий 4. Анализ рисков
Также один популярных сценариев — LLM и RAG для аналитических задач, в частности для кредитного скоринга. Применить эти технологии возможно для того, чтобы анализировать неструктурированные исторические данные о заемщике из нескольких источников, нормализовывать их, нивелируя особенности и различия форматов, происхождения и систем хранения, применять формулы и генерировать отчеты с рекомендациями для сотрудника банка.
В этом случае RAG работает как универсальный слой доступа к информации, который формирует выводы на естественном языке или по шаблону, опираясь на наиболее полную информацию о заёмщике. Сама по себе строгая аналитика, алгоритмы больших данных или прогнозные модели не являются частью RAG, но пользуются полученной с его помощью преобразованной информацией, а также передают ему результаты для генерации понятного сотруднику банка ответа и аргументации.
Сценарий 5. Обращения граждан
RAG-поиск как шаблон проектирования универсален, когда речь идёт об обработке и подготовке любой информации внутри компании или организации. Сценарии похожи друг на друга и отличаются тематикой документов, характером запросов и требованиями к ответу.
Такой поиск может быть многоступенчатым, как в сценарии обращений граждан, где сначала полученное обращение разбивается LLM на несколько запросов, каждый из которых классифицируется, при обращении к одной базе знаний RAG определяет ответственный департамент или сотрудника, при обращении к другой — подбирается фактура для ответа на основе нормативных актов, иных регламентов и истории обращений, при обращений к третьей — подбирается шаблон ответа, который обогащается полученной информацией. На выходе мы имеем проект ответа по существу всех перечисленных в общении запросов и проблем, переданный ответственному сотруднику на проверку и подпись.
Взгляд в будущее
Уже сейчас идет работа над улучшением технологии RAG и созданием дополнительных функций, которые позволят ей решать принципиально новые задачи.
Среди них:
- Понимание контекста — программа учитывает контекст разговора или задачи, чтобы дать более подходящий ответ. Это как мы с друзьями обсуждаем новый фильм, они помнят, о чем мы говорили раньше, и отвечают в рамках этой темы.
- Мультимодальный поиск — способность искать не только тексты, но и изображения и видео.
- Интерактивный поиск — возможность запрашивать и вносить уточнения после отправления запроса.
- Мультиагентные сценарии — возможность объединения самостоятельно принимающих решение поисковых агентов, каждый из которых решает часть общей поисковой задачи, выбирает источники данных и язычковые модели для подготовки ответов.
Важно помнить, что внедрение любых инноваций — это процесс, требующий значительных усилий. Однако с учетом потенциала улучшений, которые принесет технология RAG, инвестиции оправданы. Новая функциональность поможет превратить RAG в незаменимый инструмент для автоматизации процессов, улучшения качества услуг и повышения эффективности работы в самых разных сферах.
О чем хотите спросить автора статьи? Пишите вопросы в комментариях.