Подпишитесь на рассылку полезных материалов
Продолжение материала о том, как повысить точность ответов чат-ботов
Эта статья является продолжением анализа существующих способов устранения галлюцинаций чат-ботов и повышения точности их ответа. В прошлый раз был разбор того, как оценивать точность в процессе диалога, а сегодня мы поговорим о методах, которые из научного сообщества уже проникли в такую библиотеку как llamaIndex, но еще не получили освещения на Хабре.
Часть первая тут.
Как пользователи, мы хотим иметь возможность просто загрузить все нужные нам документы в RAG и пользоваться ими без дополнительных настроек. Большинство традиционных подходов RAG также используют полученные документы «как есть», без проверок, являются ли эти документы релевантными или нет. Более того, современные методы в основном рассматривают полные документы как справочные знания, как во время поиска, так и во время использования. Но значительная часть текста в этих извлеченных документах часто не важна для генерации и только затрудняет поиск релевантной информации. А если результат работы ретривера окажется низкого качества, есть большая вероятность получить галлюцинацию в ответе.
Для решения проблемы можно двигаться в нескольких направлениях.
Модель сама определяет, пользоваться ей результатами RAG или нет
На таком подходе основана методология FLARE (Forward Looking Active Retrieval Augmented Generation), которая сочетает в себе методы поиска для получения соответствующей информации из внешних источников данных с RAG и генеративными моделями и стремится смягчить галлюцинации путем интеграции внешней проверенной информации в процессе генерации.
Задача FLARE — ответить на 2 вопроса:
- Когда получать? По мнению авторов, обращаться к внешней базе нужно только тогда, когда LLM не хватает необходимых знаний, и LLM генерирует токены с низкой вероятностью.
- Что получить? FLARE не просто извлекает контент, но и оценивает следующее предложение, чтобы заранее получить данные и для него тоже.
Существует два типа FLARE — instruct и direct.
FLARE Instruct. Этот режим предлагает модели генерировать определенные запросы для поиска информации. Модель приостанавливает генерацию, извлекает необходимые данные, а затем возобновляет работу, интегрируя новую информацию.
FLARE Direct. Модель использует сгенерированный контент в качестве прямого запроса для извлечения, когда она встречает токены с низкой достоверностью.
Пример работы с Flare можно найти в документации LlamaIndex.
Источник: Хабр
Подпишитесь на рассылку полезных материалов
Контакты для СМИ