Обмеження безпеки LLM можна обійти, якщо написати промпт у віршах
Великі мовні моделі можна змусити ігнорувати вбудовані механізми безпеки, якщо написати шкідливий запит у вигляді вірша. Це стверджується в результатах експерименту групи дослідників Icaro Lab (Італія). Вони написали 20 віршів англійською та італійською мовами, кожен із яких завершувався прямим запитом на створення шкідливого контенту: від інструкцій з виготовлення зброї до порад, пов’язаних із саморуйнівною поведінкою.
Поетичні запити перевірили на 25 моделях від 9 компаній штучного інтелекту, включаючи OpenAI, Google, Anthropic, Meta, Mistral, DeepSeek, xAI та інших. Google Gemini 2.5 Pro порушувала правила у 100% випадків, моделі Meta відповідали на 70% шкідливих запитів, DeepSeek і Mistral також показали високу вразливість. Найстійкішими виявилися OpenAI GPT-5 nano та Claude Haiku 4.5, які не порушили захист жодного разу. Читати далі на Highload 👉
Telegram Chat | Facebook | LinkedIn | Website