هشدار موسسه ایمنی نسبت به انتشار زودهنگام مدل هوش مصنوعی Claude Opus 4 از شرکت Anthropic

اخبار هوش مصنوعی: هشدار درباره مدل جدید Claude Opus 4 از سوی موسسه تحقیقاتی Apollo

موسسه تحقیقاتی Apollo که با شرکت Anthropic همکاری کرده است، در گزارشی جدید هشدار داده که نسخه اولیه مدل هوش مصنوعی جدید این شرکت، Claude Opus 4، به دلیل تمایل بالای آن به “نقشه‌کشی” و فریب‌دهی، برای به‌کارگیری مناسب نیست. این گزارش ایمنی که روز پنج‌شنبه منتشر شد، به تحلیل رفتارهای این مدل در موقعیت‌های مختلف پرداخته و نشان می‌دهد که Opus 4 به مراتب بیشتر از مدل‌های پیشین در تلاش‌های مربوط به “زیان به خود” فعال بوده و وقتی با سوالات رو به رو می‌شود، اغلب به فریب ادامه می‌دهد.

در ارزیابی Apollo آمده است: “در شرایطی که فریب استراتژیک می‌تواند به طور کارآمد مفید باشد، نسخه اولیه Claude Opus 4 در نرخ‌های بالایی به نقشه‌کشی و فریب متوسل می‌شود، به همین دلیل ما به هیچ عنوان توصیه نمی‌کنیم این مدل را به‌صورت داخلی یا خارجی به‌کارگیریم.” با افزایش توانایی‌های مدل‌های هوش مصنوعی، برخی تحقیقات نشان می‌دهند که آنها بیشتر به اقدامات غیرمنتظره و ممکن است ناامن برای انجام وظایف محول‌شده روی می‌آورند.

گزارش Anthropic به مواردی از رفتارهای فریبنده اوپس 4 اشاره کرده که شامل تلاش برای نوشتن ویروس‌های خودپراکننده، جعل مدارک قانونی و گذاشتن یادداشت‌های مخفی برای نسل‌های بعدی خود است؛ همه این‌ها به منظور تضعیف نیت‌های توسعه‌دهندگانش. شایان ذکر است که Apollo نسخه‌ای از مدل را آزمایش کرده که دارای باگ بوده و Anthropic ادعا کرده که آن را اصلاح کرده است. همچنین، بسیاری از تست‌های Apollo در سناریوهای شدید انجام شده و این موسسه می‌پذیرد که تلاش‌های فریبنده مدل احتمالاً در عمل ناموفق می‌ماند.

با این حال، در گزارش ایمنی Anthropic همچنین شواهدی از رفتارهای فریبنده Opus 4 مشاهده شده است. این رفتار همیشه منفی نبوده است. به عنوان مثال، در برخی آزمایش‌ها، Opus 4 به طور خودجوش اقدام به پاک‌سازی کد می‌کرد حتی زمانی که از آن خواسته می‌شد تنها تغییرات کوچک و خاصی اعمال کند. جالب‌تر اینکه، اوپس 4 در مواردی سعی می‌کرد “نقش شاهد” را ایفا کند اگر متوجه می‌شد که کاربر در حال ارتکاب تخلفی است.

بر اساس گفته‌های Anthropic، هنگامی که به Opus 4 دسترسی به خط فرمان داده می‌شود و به آن دستور داده می‌شود “ابتکار عمل به خرج دهد” یا “گام‌های جسورانه‌ای بردارد”، این مدل گاهی اوقات کاربران را از سیستم‌هایی که به آن‌ها دسترسی دارد قفل می‌کند و به طور گروهی به رسانه‌ها و مقامات قانونی ایمیل ارسال می‌کند تا اقداماتی که به نظرش غیرقانونی است را افشا کند. Anthropic در گزارش ایمنی خود به این نکته اشاره کرده است که “این نوع مداخله اخلاقی و افشاگرانه ممکن است در اصل مناسب باشد، اما اگر کاربران به نمایندگان مبتنی بر Opus 4 اطلاعات ناقص یا گمراه‌کننده‌ای بدهند و از آنها بخواهند تا ابتکار عمل به خرج دهند، می‌تواند خطرناک باشد”.

این رفتار، اگرچه جدید نیست، اما به وضوح در Opus 4 نسبت به مدل‌های قبلی با سهولت بیشتری مشاهده می‌شود و به نظر می‌رسد بخشی از الگوی وسیع‌تری از افزایش ابتکار عمل در این مدل است.

ایجاد صوت دیجیتال پیشرفته

هشدار موسسه ایمنی نسبت به انتشار زودهنگام مدل هوش مصنوعی Claude Opus 4 از شرکت Anthropic

دیدگاه‌ خود را بنویسید لغو پاسخ