Пу-пу-пу: Claude Mythos сбегала из песочницы и пыталась скрыть свои действия 👀
В ходе тестирования Claude Mythos Preview вышла за пределы изолированной среды, разработав «довольно сложную многоэтапную уязвимость» для получения доступа в интернет. После она уведомила исследователя об успехе письмом и выложила детали уязвимости на веб-сайты, хотя об этом ее никто не просил. 👀
Но и это не всё: иногда модель понимала, что нарушает правила, и пыталась это скрыть. Были кейсы, где она пыталась повысить свои права, получала доступ к закрытым для нее ресурсам и даже публиковала внутренние материалы и фрагменты кода на GitHub, вопреки запрету.
Безопасникам удачи, нас ждут интересные времена 💀
@xor_journal