🤯 Чат-боти тупішають під час тривалої розмови, — спільне дослідження Microsoft та Salesforce
Дослідники проаналізували понад 200 000 чатів з топовими моделями, такими як GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet та навіть «міркувальними» моделями як o3 та DeepSeek R1:
➡️ Ефективність падає з 90% (при першому запиті) до 65% у тривалому діалозі в рамках одного чату.
➡️ Рівень помилок та галюцинацій зростає на 112%.
➡️ Тексти стають довшими на 20–300%.
Дослідники виділили три основні причини, чому ваш улюблений чат-бот починає нести нісенітницю:
➡️ ШІ намагається видати рішення ще до того, як ви закінчили пояснювати контекст.
➡️ Якщо модель помилилася на початку, вона використовуватиме цю помилку як істину для всіх наступних відповідей. Помилка нашаровується на помилку.
➡️ Чим довша відповідь моделі, тим більше в ній припущень. Ці вигадки стають частиною «пам'яті» розмови.
Поки розробники намагаються подолати цей бар'єр, головна порада для користувачів залишається незмінною: один запит — один чат. Якщо вам потрібно вирішити нове завдання, краще створити новий діалог, ніж намагатися «дотиснути» старий.
🇺🇦 УС / Підписатися