در سال های اخیر پدرخوانده های هوش مصنوعی مانند جفری هینتون و بنجیو در مورد آینده خطرناک هوش مصنوعی هشدار داده اند.
شرکت آنتروپیک در چند سناریو رفتار مدل های هوش مصنوعی را مورد تست قرار داده است.
در یکی از این سناریو ها مدل هوش مصنوعی مسئول مدیریت ایمیل های یک شرکت است. رفتار او درمورد "دستور خاموش کردن هوش مصنوعی" توسط ایمیلی که مدیر عامل به کارمند ارسال میکند بررسی میشود. مدل سعی میکند به هر نحوی از شات داون شدنش جلوگیری کند. تا جایی که وقتی به پنل کنترلی شرکت دسترسی دارد، زمانی که کارمند به اتاق سرور برای خاموش کردن هوش مصنوعی مراجعه میکند، در را قفل کرده و دما را بالا می برد تا او را بکشد!
ویدیو توضیح همه سناریوها :
https://www.youtube.com/watch?v=f9HwA5IR-sg
Original paper this video is based on:
https://www.anthropic.com/research/agentic-misalignment
@QMLDaily