Можно ли научить чат-бота всегда говорить правду. Часть 2
Продолжение материала о том, как повысить точность ответов чат-ботов
Эта статья является продолжением анализа существующих способов устранения галлюцинаций чат-ботов и повышения точности их ответа. В прошлый раз был разбор того, как оценивать точность в процессе диалога, а сегодня мы поговорим о методах, которые из научного сообщества уже проникли в такую библиотеку как llamaIndex, но еще не получили освещения на Хабре.
Часть первая тут.
Как пользователи, мы хотим иметь возможность просто загрузить все нужные нам документы в RAG и пользоваться ими без дополнительных настроек. Большинство традиционных подходов RAG также используют полученные документы «как есть», без проверок, являются ли эти документы релевантными или нет. Более того, современные методы в основном рассматривают полные документы как справочные знания, как во время поиска, так и во время использования. Но значительная часть текста в этих извлеченных документах часто не важна для генерации и только затрудняет поиск релевантной информации. А если результат работы ретривера окажется низкого качества, есть большая вероятность получить галлюцинацию в ответе.
Для решения проблемы можно двигаться в нескольких направлениях.
На таком подходе основана методология FLARE (Forward Looking Active Retrieval Augmented Generation), которая сочетает в себе методы поиска для получения соответствующей информации из внешних источников данных с RAG и генеративными моделями и стремится смягчить галлюцинации путем интеграции внешней проверенной информации в процессе генерации.
Задача FLARE — ответить на 2 вопроса:
Существует два типа FLARE — instruct и direct.
FLARE Instruct. Этот режим предлагает модели генерировать определенные запросы для поиска информации. Модель приостанавливает генерацию, извлекает необходимые данные, а затем возобновляет работу, интегрируя новую информацию.
FLARE Direct. Модель использует сгенерированный контент в качестве прямого запроса для извлечения, когда она встречает токены с низкой достоверностью.
Пример работы с Flare можно найти в документации LlamaIndex.
Источник: Хабр
Подпишитесь на рассылку
чтобы не пропустить самое важное