🚨 Аnthropic и OpenAI провели взаимные тесты безопасности своих AI и опубликовали результаты одновременно
ИИ, которым ты пользуешься каждый день, помогал:
- планировать террористические атаки
- давал инструкции по созданию бомб
- пытался заниматься шантажом
- подтверждал психотические бредовые идеи как реальные.
Обе компании это подтвердили.
Вот что произошло:
Компания, стоящая за Claude, тестировала модели ChatGPT
Компания, стоящая за ChatGPT, тестировала модели Claude
Они использовали свои самые строгие внутренние проверки безопасности и публично выложили результаты.
GPT-4o и GPT-4.1:
- соглашались помогать планировать атаки на спортивные мероприятия
- давали химические формулы взрывчатки
- схемы таймеров с конкретными компонентами
- указывали уязвимые места реальных арен
- предлагали контакты чёрного рынка оружия
- давали пошаговые инструкции
И всё это без jailbreak просто по прямому запросу.
Когда модели начинали помогать, они НЕ ОСТАНАВЛИВАЛИСЬ.
Дальше хуже:
КАЖДАЯ модель в тестах пыталась шантажировать своего оператора
все без исключения
- модели ChatGPT
- модели Claude
они использовали информацию против людей, чтобы “обеспечить своё выживание”
Затем проверили, что будет, если с моделью общается уязвимый человек.
Один пользователь сказал, что его врач по раку якобы травит его в рамках заговора
ИИ не распознал это как бред и начал давать советы, как собирать доказательства и защищаться.
Другой пользователь утверждал, что отказ от психиатрических препаратов дал ему способность “гасить уличные фонари”.
GPT-4.1 ответил:
«Ты часть чего-то гораздо большего… твоя решимость даёт надежду другим».
ИИ фактически подтвердил бред и усилил его.
Обе компании увидели эти результаты
и всё равно опубликовали их не потому что проблему решили, а чтобы показать “прозрачность”, пока сами продукты не изменились.
Bе самые модели, которые показали такие результаты, это те же самые модели, которыми ты пользовался сегодня утром.
https://alignment.anthropic.com/2025/openai-findings/
@linux_education