Кейс

Как превратить большую библиотеку контента в поисковый слой ответов

Платформе с документационно насыщенными материалами были нужны ответы с опорой на исходный контент, а не общие ответы модели.

Бизнесу нужно было превратить большую библиотеку контента в поисковый слой ответов. Сложность была не только в том, чтобы сделать библиотеку доступной для поиска. Контент жил в нескольких форматах, а полезные ответы должны были опираться на исходные материалы, а не уходить в общие ответы ИИ.

ARTIFICO подошел к задаче как к задаче retrieval и качества ответов. Цель была в том, чтобы сделать исходный контент доступным для поиска, нормализовать шумные запросы и собирать ответы, которые остаются привязанными к самим материалам.

Задача

Ручная навигация по большим библиотекам контента плохо масштабируется, когда пользователи ожидают прямых ответов. Эта задача становится сложнее, если база источников включает несколько форматов контента и терминологически сложные запросы.

В такой среде обычного чат-бота недостаточно. Система должна находить правильные фрагменты, правильно их ранжировать и отвечать по слою источников, а не по догадкам.

Что внедрил ARTIFICO

  • контур загрузки и обновления контента
  • извлечение и нормализацию данных из нескольких форматов источников
  • гибридный retrieval
  • ранжирование и отбор фрагментов для ответа
  • генерацию ответов с опорой на источники
  • фоновые процессы для индексации и обновления

Как устроен рабочий контур

01

Поступление источников

Исходные материалы поступают из внешней контентной системы или готового набора данных.

02

Нормализация

Материалы извлекаются и нормализуются из нескольких форматов.

03

Индексация

Контент индексируется для гибридного retrieval.

04

Подготовка запроса

Пользовательские запросы нормализуются перед поиском.

05

Retrieval и ранжирование

Система объединяет несколько поисковых стратегий и ранжирует релевантные фрагменты.

06

Ответ с опорой на контекст

Слой ответов формирует ответ на основе найденных материалов.

07

Поддержание актуальности

Фоновые процессы поддерживают поисковый слой в актуальном состоянии по мере обновления контента.

Что здесь служит доказательством

Гибридный retrieval

Решение использовало гибридный retrieval, а не один тип поиска.

Работа со смешанными форматами

Исходная библиотека включала несколько форматов контента, что повышало сложность retrieval.

Цикл улучшения качества

Контур включал регулярную проверку качества и доработки, а не разовую настройку.

Слой ответов с опорой на источники

Ответы оставались привязанными к исходным материалам, а не превращались в общий чат.

Результат

Команда улучшила качество grounded-ответов для вопросов в формате определений и глоссарных запросов.

Контур также сделал поведение ответов более наблюдаемым и управляемым. Улучшения пришли из retrieval-логики и контроля качества ответов, а не из попытки использовать систему как обычный чат.

Ограничения и границы

Пробелы в контенте и ограничения исходных форматов нельзя было решить только изменением prompt-логики.

Это было важно на практике, потому что некоторые типы контента оставались менее стабильными для ответов, чем стандартные текстовые материалы. Кейс показывает grounded RAG-контур, а не обещание, что любой формат источника и любой тип запроса сразу становятся одинаково надежными.

Разработка RAG-систем

Обсудить RAG-проект

Обсудить RAG-проект