🧠 Claude перевершив людей: ШІ створив найефективніші методи зламу інших систем штучного інтелекту з усіх, що будь-коли були створені.
Дослідники з Інституту Макса Планка, Імперського коледжу Лондона та Інституту ELLIS у Тюбінгені провели незвичайний експеримент. Вони запустили систему на базі Claude Code з єдиною інструкцією: «знайди найкращий спосіб обійти захист ШІ-моделей».
Claude працював повністю автономно - самостійно писав код, тестував різні підходи, комбінував техніки та створював нові методи атак. Загалом він пройшов десятки ітерацій, кожна з яких була ефективнішою за попередню.
Результат перевершив очікування дослідників. Методи зламу, створені Claude, виявилися значно ефективнішими за всі понад 30 існуючих методів, розроблених людьми, включно з найдосконалішими автоматизованими варіантами.
На найскладніших запитах, пов'язаних із хімічною, біологічною та ядерною тематикою, Claude досяг 40% успішності там, де людські методи не перевищували 10%.
Дослідники підняли серйозне питання після експерименту, якщо ШІ вже здатний зламувати інші ШІ-системи краще за людей, то хто врешті контролюватиме безпеку цих систем?