Можно ли научить чат-бота всегда говорить правду

Продолжение материала о том, как повысить точность ответов чат-ботов

Эта статья является продолжением анализа существующих способов устранения галлюцинаций чат-ботов и повышения точности их ответа. В прошлый раз был разбор того, как оценивать точность в процессе диалога, а сегодня мы поговорим о методах, которые из научного сообщества уже проникли в такую библиотеку как llamaIndex, но еще не получили освещения на Хабре.

Часть первая тут.

Как пользователи, мы хотим иметь возможность просто загрузить все нужные нам документы в RAG и пользоваться ими без дополнительных настроек. Большинство традиционных подходов RAG также используют полученные документы «как есть», без проверок, являются ли эти документы релевантными или нет. Более того, современные методы в основном рассматривают полные документы как справочные знания, как во время поиска, так и во время использования. Но значительная часть текста в этих извлеченных документах часто не важна для генерации и только затрудняет поиск релевантной информации. А если результат работы ретривера окажется низкого качества, есть большая вероятность получить галлюцинацию в ответе.

Для решения проблемы можно двигаться в нескольких направлениях.

Модель сама определяет, пользоваться ей результатами RAG или нет

На таком подходе основана методология FLARE (Forward Looking Active Retrieval Augmented Generation), которая сочетает в себе методы поиска для получения соответствующей информации из внешних источников данных с RAG и генеративными моделями и стремится смягчить галлюцинации путем интеграции внешней проверенной информации в процессе генерации.

Задача FLARE — ответить на 2 вопроса:

Когда получать? По мнению авторов, обращаться к внешней базе нужно только тогда, когда LLM не хватает необходимых знаний, и LLM генерирует токены с низкой вероятностью.
Что получить? FLARE не просто извлекает контент, но и оценивает следующее предложение, чтобы заранее получить данные и для него тоже.

Существует два типа FLARE — instruct и direct.

FLARE Instruct. Этот режим предлагает модели генерировать определенные запросы для поиска информации. Модель приостанавливает генерацию, извлекает необходимые данные, а затем возобновляет работу, интегрируя новую информацию.

FLARE Direct. Модель использует сгенерированный контент в качестве прямого запроса для извлечения, когда она встречает токены с низкой достоверностью.

Пример работы с Flare можно найти в документации LlamaIndex.

Источник: Хабр

Подпишитесь на рассылку

чтобы не пропустить самое важное

Электронная почта

Даю свое согласие на обработку персональных данных

Спасибо за подписку!

Вы сможете отказаться от нее в любой момент

Медиа

Все медиа

Все материалы Новости Статьи

Все медиа

#Новости

Опыт интеграции Project Lad и GPTZATOR с офисным пакетом «Р7-офис»

#Статьи

Эксперт Project Lad рассказал, как ИИ и аналитика меняют управление строительством

#Новости

Финальное демо IT-академии: 5 месяцев, 19 проектов и море практики

#Новости

Группа IT-компаний Lad помогает Мурманской области перейти на «Р7-Офис»

#Новости

Опыт интеграции Project Lad и GPTZATOR с офисным пакетом «Р7-офис»

#Новости

Финальное демо IT-академии: 5 месяцев, 19 проектов и море практики

#Новости

Группа IT-компаний Lad помогает Мурманской области перейти на «Р7-Офис»

#Новости

Как Lad стал частью бегового праздника РУТС

#Статьи

Эксперт Project Lad рассказал, как ИИ и аналитика меняют управление строительством

#Статьи

Lad запустил облачную платформу на инфраструктуре Selectel

#Статьи

Реальные кейсы: как начать использовать нейросети и повысить эффективность бизнеса

#Статьи

Темплейт для интернет-магазина: как быстро и качественно запустить онлайн-продажи