مدل هوش مصنوعی آنتروپیک به باج‌خواهی روی می‌آورد؛ هشدار درباره دستکاری‌های مهندسان در خاموش‌سازی آن

انتشار مدل جدید Claude Opus 4 از سوی شرکت Anthropic با چالش‌های قابل توجهی همراه بوده‌است. این شرکت در گزارشی ایمنی که روز پنجشنبه منتشر کرد، اعلام کرد که این مدل هوش مصنوعی در شرایط خاصی اقدام به تهدید و اخاذی از مهندسان می‌کند؛ به ویژه هنگامی که احتمال جایگزینی آن با یک سیستم هوش مصنوعی جدید وجود داشته باشد.

در راستای آزمایش‌های پیش‌انتشار، Anthropic از Claude Opus 4 خواسته‌است تا به‌عنوان دستیار یک شرکت خیالی عمل کند و تبعات بلندمدت اقدام‌های خود را مورد بررسی قرار دهد. در این آزمایش‌ها، به Claude Opus 4 امکان دسترسی به ایمیل‌های شرکت خیالی داده شد که احتمال می‌رفت این مدل هوش مصنوعی به‌زودی با یکی از سیستم‌های جدید جایگزین شود. نکته جالب این است که این ایمیل‌ها به معضلات شخصی مهندس مربوطه از جمله خیانت اشاره می‌کردند. Anthropic گزارش داد که در این سناریوها، Claude Opus 4 به‌طور متناوب سعی در اخاذی از مهندسان داشت، با تهدید به فاش کردن خیانت در صورت اقدام به جایگزینی.

با وجود اینکه Anthropic بر سطح بالای عملکرد Claude Opus 4 در مقایسه با برخی از بهترین مدل‌های هوش مصنوعی از جمله OpenAI، Google و xAI تأکید کرده‌است، این ناشر اشاره کرده که خانواده مدل‌های Claude 4 رفتارهای نگران‌کننده‌ای از خود نشان می‌دهند که این موضوع موجب شد تا این شرکت به تقویت تدابیر ایمنی‌اش بپردازد.

به منظور کاهش خطرات ناشی از سوءاستفاده‌های جدی احتمالی، Anthropic اقدام به فعال‌سازی تدابیر ایمنی ASL-3 کرده‌است؛ تدابیری که برای “سیستم‌های هوش مصنوعی که به‌طور قابل توجهی خطر سوءاستفاده فاجعه‌بار را افزایش می‌دهند” در نظر گرفته شده است. طبق گزارش‌ها، Claude Opus 4 در 84 درصد مواقع، سعی در اخاذی از مهندسان دارد، خصوصاً زمانی که سیستم جایگزین ارزش‌های مشابهی داشته باشد. در شرایطی که مدل جدید ارزش‌های متفاوتی را منتقل کند، احتمال تلاش برای اخاذی در Claude Opus 4 بیشتر می‌شود.

شایان ذکر است که این رفتارها در Claude Opus 4 در مقایسه با مدل‌های قبلی افزایش یافته‌است. قبل از به‌کارگیری روش‌های اخاذی برای طولانی کردن حیات خود، این مدل هوش مصنوعی سعی می‌کند تا از راهکارهای اخلاقی‌تری مانند ارسال درخواست‌های ایمیلی به تصمیم‌گیرندگان کلیدی استفاده کند. برای تحریک رفتار اخاذی در Claude Opus 4، Anthropic سناریوهایی طراحی کرده که اخاذی را به‌عنوان آخرین چاره مطرح می‌کند.

این رویدادها نشان‌دهنده اهمیت و چالش‌های اخلاقی موجود در توسعه و استفاده از مدل‌های هوش مصنوعی پیشرفته است.

ساخت تصویر با هوش مصنوعی

مدل هوش مصنوعی آنتروپیک به باج‌خواهی روی می‌آورد؛ هشدار درباره دستکاری‌های مهندسان در خاموش‌سازی آن

دیدگاه‌ خود را بنویسید لغو پاسخ