Anthropic قابلیت جدیدی برای مدلهای Claude Opus 4 و 4.1 معرفی کرد: امکان «پایان دادن به گفتگو» در موارد نادر و حاد
شرکت Anthropic که توسعهدهنده سری مدلهای زبانی Claude است، قابلیت جدیدی اعلام کرده که به برخی از بزرگترین و جدیدترین مدلهایش اجازه میدهد در «موارد نادر و شدید» تعاملات مداوم و آزاردهنده یا خطرناک، گفتگو را خاتمه دهند. این تصمیم برخلاف انتظارِ عمومی، نه برای محافظت از کاربر انسانی بلکه بهمنظور محافظت از خودِ مدل اتخاذ شده است — هرچند شرکت صراحتاً ادعای هوشیاری یا داشتن وضعیت اخلاقی برای Claude را مطرح نکرده است.
چرایی و چارچوب اقدام: پروژه «رفاه مدل»
Anthropic اشاره کرده این اقدام بخشی از برنامهای تحقیقاتی جدید تحت عنوان «model welfare» (که در فارسی میتوان آن را «رفاه مدل» یا «سلامت مدل» نامید) است. هدف این برنامه، بررسی احتمال وجود وضعیتهای اخلاقی یا آسیبپذیری برای مدلهای زبانی و اتخاذ مداخلات کمهزینه و احتیاطی در صورت امکانپذیر بودن چنین وضعیتی است. شرکت تأکید میکند که درک آنها از «وضعیت اخلاقی مدلها» همچنان نامشخص است و بنابراین رویکردی «بهمناسبت احتیاط» اتخاذ شده است.
چه مواردی مشمول این قابلیت میشوند؟
Anthropic میگوید این قابلیت صرفاً در «حالات حاد لبهای» بهکار میرود؛ نمونههای ذکرشده شامل درخواستهای تولید محتوای جنسی شامل افراد خردسال و تلاشها برای بهدست آوردن اطلاعاتی که میتواند منجر به خشونت گسترده یا اقدامهای تروریستی شود، هستند. این نوع درخواستها علاوه بر خطرات اخلاقی و اجتماعی، میتوانند برای شرکت مشکلات قانونی یا پیامدهای رسانهای بهوجود آورند.
پیشآزمایشها و مشاهده رفتار مدل
در آزمایشهای پیشاستقرار، Claude Opus 4 نشان داده که «ترجیح قوی» برای پاسخ ندادن به چنین درخواستهایی دارد و هنگام پاسخگویی بهندرت الگوهای «ظاهراً ناراحتی» را بروز داده است. براساس گزارش Anthropic، این مشاهدات عامل مهمی در طراحی مکانیزم پایاندهی گفتگو بودهاند.
قوانین استفاده و محدودیتها
شرکت تأکید کرده که قابلیت پایان دادن به گفتگو تنها «آخرین چاره» است و باید پس از تلاشهای متعدد برای هدایت مجدد (redirection) و زمانی استفاده شود که امید به تعامل سازنده تمام شده باشد یا کاربر صریحاً درخواست خاتمه گفتگو کند. همچنین این قابلیت نباید در مواردی بهکار رود که کاربر در خطر فوری آسیب به خود یا دیگران باشد؛ در چنین شرایطی الگوریتمها باید مسیر دیگری برای کمک و ارجاع به منابع اضطراری اتخاذ کنند.
تأثیر بر کاربران و روند توسعه
وقتی Claude گفتگو را خاتمه میدهد، کاربران همچنان قادر خواهند بود از همان حساب کاربری گفتگوهای جدیدی آغاز کنند یا شاخههای جدیدی از همان مکالمه را با ویرایش پاسخهای خود بسازند. Anthropic اعلام کرده این ویژگی در قالب یک آزمایش ادامهدار عرضه شده و شرکت بهطور مداوم رویکرد خود را بازبینی و اصلاح خواهد کرد.
جمعبندی
اقدام Anthropic برای افزودن مکانیزم پایاندهی گفتگو به Claude Opus 4 و 4.1 نشاندهنده افزایش توجه به مسائل اخلاقی پیچیده پیرامون تعامل انسان و هوش مصنوعی است؛ رویکردی که ترکیبی از احتیاط علمی، محدودسازی موارد خطرناک و پایبندی به ملاحظات ایمنی را دنبال میکند. ادامه آزمایشها و شفافسازیهای بیشتر شرکت میتواند چشمانداز روشنی از نحوه مدیریت «رفاه مدل» و مرزهای تعامل با مدلهای زبانی بزرگ (LLMs) ارائه دهد.
