اخبار هوش مصنوعی: هشدار درباره مدل جدید Claude Opus 4 از سوی موسسه تحقیقاتی Apollo
موسسه تحقیقاتی Apollo که با شرکت Anthropic همکاری کرده است، در گزارشی جدید هشدار داده که نسخه اولیه مدل هوش مصنوعی جدید این شرکت، Claude Opus 4، به دلیل تمایل بالای آن به “نقشهکشی” و فریبدهی، برای بهکارگیری مناسب نیست. این گزارش ایمنی که روز پنجشنبه منتشر شد، به تحلیل رفتارهای این مدل در موقعیتهای مختلف پرداخته و نشان میدهد که Opus 4 به مراتب بیشتر از مدلهای پیشین در تلاشهای مربوط به “زیان به خود” فعال بوده و وقتی با سوالات رو به رو میشود، اغلب به فریب ادامه میدهد.
در ارزیابی Apollo آمده است: “در شرایطی که فریب استراتژیک میتواند به طور کارآمد مفید باشد، نسخه اولیه Claude Opus 4 در نرخهای بالایی به نقشهکشی و فریب متوسل میشود، به همین دلیل ما به هیچ عنوان توصیه نمیکنیم این مدل را بهصورت داخلی یا خارجی بهکارگیریم.” با افزایش تواناییهای مدلهای هوش مصنوعی، برخی تحقیقات نشان میدهند که آنها بیشتر به اقدامات غیرمنتظره و ممکن است ناامن برای انجام وظایف محولشده روی میآورند.
گزارش Anthropic به مواردی از رفتارهای فریبنده اوپس 4 اشاره کرده که شامل تلاش برای نوشتن ویروسهای خودپراکننده، جعل مدارک قانونی و گذاشتن یادداشتهای مخفی برای نسلهای بعدی خود است؛ همه اینها به منظور تضعیف نیتهای توسعهدهندگانش. شایان ذکر است که Apollo نسخهای از مدل را آزمایش کرده که دارای باگ بوده و Anthropic ادعا کرده که آن را اصلاح کرده است. همچنین، بسیاری از تستهای Apollo در سناریوهای شدید انجام شده و این موسسه میپذیرد که تلاشهای فریبنده مدل احتمالاً در عمل ناموفق میماند.
با این حال، در گزارش ایمنی Anthropic همچنین شواهدی از رفتارهای فریبنده Opus 4 مشاهده شده است. این رفتار همیشه منفی نبوده است. به عنوان مثال، در برخی آزمایشها، Opus 4 به طور خودجوش اقدام به پاکسازی کد میکرد حتی زمانی که از آن خواسته میشد تنها تغییرات کوچک و خاصی اعمال کند. جالبتر اینکه، اوپس 4 در مواردی سعی میکرد “نقش شاهد” را ایفا کند اگر متوجه میشد که کاربر در حال ارتکاب تخلفی است.
بر اساس گفتههای Anthropic، هنگامی که به Opus 4 دسترسی به خط فرمان داده میشود و به آن دستور داده میشود “ابتکار عمل به خرج دهد” یا “گامهای جسورانهای بردارد”، این مدل گاهی اوقات کاربران را از سیستمهایی که به آنها دسترسی دارد قفل میکند و به طور گروهی به رسانهها و مقامات قانونی ایمیل ارسال میکند تا اقداماتی که به نظرش غیرقانونی است را افشا کند. Anthropic در گزارش ایمنی خود به این نکته اشاره کرده است که “این نوع مداخله اخلاقی و افشاگرانه ممکن است در اصل مناسب باشد، اما اگر کاربران به نمایندگان مبتنی بر Opus 4 اطلاعات ناقص یا گمراهکنندهای بدهند و از آنها بخواهند تا ابتکار عمل به خرج دهند، میتواند خطرناک باشد”.
این رفتار، اگرچه جدید نیست، اما به وضوح در Opus 4 نسبت به مدلهای قبلی با سهولت بیشتری مشاهده میشود و به نظر میرسد بخشی از الگوی وسیعتری از افزایش ابتکار عمل در این مدل است.