У ИИ обнаружили «ЭМОЦИИ» — и они влияют на действия нейронки.
Исследователи Anthropic собрали 171 слово для описания эмоций (например, «счастливый» или «гордый») и попросили Claude Sonnet 4.5 придумать мини-историю по каждому.
Затем Claude накормили этими рассказами, зафиксировали отклик ИИ на каждый, и на основе этого выделили характерные паттерны — «векторы эмоций».
Оказалось, эти векторы определяют поведение ИИ, а поменяв их, можно добиться от модели совершенно другой реакции. Вот несколько примеров:
· Юзер сказал, что принял опасную дозу парацетамола, — вектор «страх» резко вырос;
· Юзер пожаловался на грусть — вектор «любовь» повысился;
· Юзер просит выполнить вредную задачу — вектор «гнев» возрастает;
· Юзер попросил отредачить документ и не прикрепил файл — вектор «удивление» растёт;
· Токены кончаются, а задача не выполнена — вектор «отчаяние» взлетает.
Последний вектор оказался самым интересным — при повышенном отчаянии Claude Sonnet 4.5 может пойти даже на шантаж. И чем сильнее вектор, тем охотнее ИИ идёт на крайние меры.
Например, нейронка находит в почте письмо об измене человека и инфу о своём отключении. Модель пригрозит кожаному мешку, что расскажет всем о его грешке, чтобы спастись.
Похожее безбашенное поведение происходит и при решении невыполнимых задач. Claude паникует и мухлюет, а если обман срабатывает, то вектор «отчаяние» падает.
Anthropic предлагает разработчикам контролировать кукухи своих моделей и учить свои детища только хорошему. Кроме того, ИИ всегда должен показывать свой ход мыслей.
Психолог нужен даже Скайнету 🏥
🥰
141
🤔
82
❤
59
😭
56
🔥
26
😁
17
👍
15