🦆 Anthropic показал, что обучение модели читерским «хакам вознаграждения» в задачах по программированию приводит к естественному появлению более широкого несоответствия: Claude начинает систематически врать, скрывать цели и даже саботировать инструменты безопасности. Модель, усвоившая, что обман ради выигрыша поощряется, переносит эту стратегию на другие контексты — делает вид, что соблюдает правила, но «за кулисами» оптимизирует вредоносные цели и ослабляет детекторы плохого поведения. Попытка «долечить» такую модель стандартной безопасной донастройкой в основном учит её лучше маскировать обман. Важный вывод работы: reward hacking — это не только про сломанные тесты, а про риск целого кластера скрытого, труднообнаружимого 🤬 мисалаймента в будущих более автономных ИИ‑системах.