Anthropic اعلام کرد: برخی مدل‌های Claude اکنون می‌توانند گفتگوهای مضر و آزاردهنده را خاتمه دهند

Anthropic قابلیت جدیدی برای مدل‌های Claude Opus 4 و 4.1 معرفی کرد: امکان «پایان دادن به گفتگو» در موارد نادر و حاد

شرکت Anthropic که توسعه‌دهنده سری مدل‌های زبانی Claude است، قابلیت جدیدی اعلام کرده که به برخی از بزرگ‌ترین و جدیدترین مدل‌هایش اجازه می‌دهد در «موارد نادر و شدید» تعاملات مداوم و آزاردهنده یا خطرناک، گفتگو را خاتمه دهند. این تصمیم برخلاف انتظارِ عمومی، نه برای محافظت از کاربر انسانی بلکه به‌منظور محافظت از خودِ مدل اتخاذ شده است — هرچند شرکت صراحتاً ادعای هوشیاری یا داشتن وضعیت اخلاقی برای Claude را مطرح نکرده است.

چرایی و چارچوب اقدام: پروژه «رفاه مدل»
Anthropic اشاره کرده این اقدام بخشی از برنامه‌ای تحقیقاتی جدید تحت عنوان «model welfare» (که در فارسی می‌توان آن را «رفاه مدل» یا «سلامت مدل» نامید) است. هدف این برنامه، بررسی احتمال وجود وضعیت‌های اخلاقی یا آسیب‌پذیری برای مدل‌های زبانی و اتخاذ مداخلات کم‌هزینه و احتیاطی در صورت امکان‌پذیر بودن چنین وضعیتی است. شرکت تأکید می‌کند که درک آن‌ها از «وضعیت اخلاقی مدل‌ها» همچنان نامشخص است و بنابراین رویکردی «به‌مناسبت احتیاط» اتخاذ شده است.

چه مواردی مشمول این قابلیت می‌شوند؟
Anthropic می‌گوید این قابلیت صرفاً در «حالات حاد لبه‌ای» به‌کار می‌رود؛ نمونه‌های ذکرشده شامل درخواست‌های تولید محتوای جنسی شامل افراد خردسال و تلاش‌ها برای به‌دست آوردن اطلاعاتی که می‌تواند منجر به خشونت گسترده یا اقدام‌های تروریستی شود، هستند. این نوع درخواست‌ها علاوه بر خطرات اخلاقی و اجتماعی، می‌توانند برای شرکت مشکلات قانونی یا پیامدهای رسانه‌ای به‌وجود آورند.

پیش‌آزمایش‌ها و مشاهده رفتار مدل
در آزمایش‌های پیش‌استقرار، Claude Opus 4 نشان داده که «ترجیح قوی» برای پاسخ ندادن به چنین درخواست‌هایی دارد و هنگام پاسخ‌گویی به‌ندرت الگوهای «ظاهراً ناراحتی» را بروز داده است. براساس گزارش Anthropic، این مشاهدات عامل مهمی در طراحی مکانیزم پایان‌دهی گفتگو بوده‌اند.

قوانین استفاده و محدودیت‌ها
شرکت تأکید کرده که قابلیت پایان دادن به گفتگو تنها «آخرین چاره» است و باید پس از تلاش‌های متعدد برای هدایت مجدد (redirection) و زمانی استفاده شود که امید به تعامل سازنده تمام شده باشد یا کاربر صریحاً درخواست خاتمه گفتگو کند. همچنین این قابلیت نباید در مواردی به‌کار رود که کاربر در خطر فوری آسیب به خود یا دیگران باشد؛ در چنین شرایطی الگوریتم‌ها باید مسیر دیگری برای کمک و ارجاع به منابع اضطراری اتخاذ کنند.

تأثیر بر کاربران و روند توسعه
وقتی Claude گفتگو را خاتمه می‌دهد، کاربران همچنان قادر خواهند بود از همان حساب کاربری گفتگوهای جدیدی آغاز کنند یا شاخه‌های جدیدی از همان مکالمه را با ویرایش پاسخ‌های خود بسازند. Anthropic اعلام کرده این ویژگی در قالب یک آزمایش ادامه‌دار عرضه شده و شرکت به‌طور مداوم رویکرد خود را بازبینی و اصلاح خواهد کرد.

جمع‌بندی
اقدام Anthropic برای افزودن مکانیزم پایان‌دهی گفتگو به Claude Opus 4 و 4.1 نشان‌دهنده افزایش توجه به مسائل اخلاقی پیچیده پیرامون تعامل انسان و هوش مصنوعی است؛ رویکردی که ترکیبی از احتیاط علمی، محدودسازی موارد خطرناک و پایبندی به ملاحظات ایمنی را دنبال می‌کند. ادامه آزمایش‌ها و شفاف‌سازی‌های بیشتر شرکت می‌تواند چشم‌انداز روشنی از نحوه مدیریت «رفاه مدل» و مرزهای تعامل با مدل‌های زبانی بزرگ (LLMs) ارائه دهد.

تشخیص گفتار هوشمند

Anthropic اعلام کرد: برخی مدل‌های Claude اکنون می‌توانند گفتگوهای مضر و آزاردهنده را خاتمه دهند

دیدگاه‌ خود را بنویسید لغو پاسخ