🦄 Все врут (включая нейросети). Научить модель знать всё — очень сложно, поэтому перед разработчиками стоит другая задача — чтобы ИИ признавался, когда не знает ответа. Спросили у руководителя команды базового алайнмента Алексея Зотова, как новую модель YandexGPT 5.1 учили быть честной.
Откуда берутся галлюцинации
Языковые модели работают на предсказании токенов — следующих фрагментов текста. Когда модель не может найти на 100% верный токен, она подставляет наиболее подходящий. Но он не всегда правильный, ведь токены часто подходят не только по фактам, но и по стилю, аналогии или другим параметрам.
Как YandexGPT 5.1 отучали от галлюцинаций
Мы наглядно показали модели, когда ей следовало ответить, что она не знает.
🔸 Попросили саму нейросеть ответить на множество вопросов.
🔸 Ответы проверили автоматически, сверяя с её же датасетом для предобучения. Там, где она ошиблась, правильным ответом стало «я не знаю».
🔸 Эти пары запросов и ответов собрали в синтетический датасет для дообучения.
Как оценивают честность нейросетей
Для этого есть специальные бенчмарки вроде Simple QA от OpenAI. Моделям задают список вопросов про науку, кино, политику, географию и т. д. Затем их ответы проверяют с помощью другой модели, сверяясь с эталонным ответом или документом, в котором содержится ответ. Ответы разбивают на три группы — правильные, противоречивые (с галлюцинациями) и отказы от ответа. После этого оценку ставят на основании процентного соотношения этих групп.
Почему так сложно научить модель говорить «я не знаю»
Главная сложность — найти баланс, чтобы нейросеть не считала «я не знаю» слишком универсальным ответом и продолжала искать правильный, если он есть. Чтобы избежать излишней осторожности, модели дают несколько попыток сгенерировать правильный ответ. И только если все попытки приводят к галлюцинациям — предлагают отказываться от ответа.
Как ещё можно бороться с галлюцинациями?
Можно использовать источники дополнительной информации, например, результаты поиска. Они в виде текста подаются на вход модели, чтобы она использовала их при ответе на запрос. Помимо точности фактовых ответов, это также решает проблему актуальности знаний модели.
Подписывайтесь 👉 @techno_yandex