Кейс

Как превратить большую библиотеку контента в поисковый слой ответов

Платформе с документационно насыщенными материалами были нужны ответы с опорой на исходный контент, а не общие ответы модели.

Бизнесу нужно было превратить большую библиотеку контента в поисковый слой ответов. Сложность была не только в том, чтобы сделать библиотеку доступной для поиска. Контент жил в нескольких форматах, а полезные ответы должны были опираться на исходные материалы, а не уходить в общие ответы ИИ.

ARTIFICO подошел к задаче как к задаче retrieval и качества ответов. Цель была в том, чтобы сделать исходный контент доступным для поиска, нормализовать шумные запросы и собирать ответы, которые остаются привязанными к самим материалам.

Задача

Ручная навигация по большим библиотекам контента плохо масштабируется, когда пользователи ожидают прямых ответов. Эта задача становится сложнее, если база источников включает несколько форматов контента и терминологически сложные запросы.

В такой среде обычного чат-бота недостаточно. Система должна находить правильные фрагменты, правильно их ранжировать и отвечать по слою источников, а не по догадкам.

Что внедрил ARTIFICO

контур загрузки и обновления контента
извлечение и нормализацию данных из нескольких форматов источников
гибридный retrieval
ранжирование и отбор фрагментов для ответа
генерацию ответов с опорой на источники
фоновые процессы для индексации и обновления

Как устроен рабочий контур

Поступление источников

Исходные материалы поступают из внешней контентной системы или готового набора данных.

Нормализация

Материалы извлекаются и нормализуются из нескольких форматов.

Индексация

Контент индексируется для гибридного retrieval.

Подготовка запроса

Пользовательские запросы нормализуются перед поиском.

Retrieval и ранжирование

Система объединяет несколько поисковых стратегий и ранжирует релевантные фрагменты.

Ответ с опорой на контекст

Слой ответов формирует ответ на основе найденных материалов.

Поддержание актуальности

Фоновые процессы поддерживают поисковый слой в актуальном состоянии по мере обновления контента.

Что здесь служит доказательством

Гибридный retrieval

Решение использовало гибридный retrieval, а не один тип поиска.

Работа со смешанными форматами

Исходная библиотека включала несколько форматов контента, что повышало сложность retrieval.

Цикл улучшения качества

Контур включал регулярную проверку качества и доработки, а не разовую настройку.

Слой ответов с опорой на источники

Ответы оставались привязанными к исходным материалам, а не превращались в общий чат.

Результат

Команда улучшила качество grounded-ответов для вопросов в формате определений и глоссарных запросов.

Контур также сделал поведение ответов более наблюдаемым и управляемым. Улучшения пришли из retrieval-логики и контроля качества ответов, а не из попытки использовать систему как обычный чат.

Ограничения и границы

Пробелы в контенте и ограничения исходных форматов нельзя было решить только изменением prompt-логики.

Это было важно на практике, потому что некоторые типы контента оставались менее стабильными для ответов, чем стандартные текстовые материалы. Кейс показывает grounded RAG-контур, а не обещание, что любой формат источника и любой тип запроса сразу становятся одинаково надежными.

Разработка RAG-систем

Нужно собрать RAG-контур, который опирается на реальные источники?

Обсудить RAG-проект

Узнайте, кто такая АРТИФИКО, чем мы занимаемся и как подходим к проектам.

О компании АРТИФИКО