عنوان: همکاری کمسابقه OpenAI و Anthropic برای آزمایش ایمنی مدلهای هوش مصنوعی
OpenAI و Anthropic، دو آزمایشگاه بزرگ حوزه هوش مصنوعی، بهصورت موقتی دسترسیهای ویژهای به مدلهای محافظتشده خود را برای انجام آزمایشهای مشترک ایمنی باز کردند؛ اقدامی نادر که در قالب یک همکاری بینشرکتی و در اوج رقابت تجاری انجام شد. هدف این پژوهش مشترک، کشف نقاط کور در ارزیابیهای داخلی هر شرکت و نشاندادن راههایی برای همکاری بلندمدتِ بازیگران اصلی صنعت در زمینه ایمنی و همراستاسازی (alignment) مدلهای هوش مصنوعی عنوان شده است.
دلیل و اهمیت همکاری
با گسترش کاربرد مدلهای زبانی بزرگ (LLM) در خدمات روزمره میلیونها کاربر، کارشناسان از ورود هوش مصنوعی به مرحلهای «پیامددار» (consequential) صحبت میکنند؛ مرحلهای که خطاها و رفتارهای ناخواسته میتوانند پیامدهای واقعی و جدی داشته باشند. Wojciech Zaremba، همبنیانگذار OpenAI، در مصاحبهای تأکید کرد که وضع استاندارد صنعتی برای ایمنی و همکاری در برابر فشارهای مالی و رقابت بر سر استعدادها و کاربران، اهمیت فزایندهای یافته است.
جزئیات فنی همکاری و حواشی
برای انجام این تحقیق، دو شرکت بهیکدیگر دسترسی API به نسخههایی از مدلهای خود با محافظتهای کمتر دادند تا ارزیابیهای متقابل ممکن شود. OpenAI تأکید کرده است که GPT-5 در این آزمایش حضور نداشته، چرا که هنوز منتشر نشده بود. با این حال، پس از انجام بخشی از پژوهش، Anthropic دسترسی یکی از تیمهای OpenAI به مدلهای Claude را لغو کرد و مدعی شد که نقض شرایط استفاده رخ داده است؛ ادعایی که Zaremba آن را مستقل از پژوهش مشترک خواند. این رویداد نشان میدهد که رقابت شدید میان شرکتها میتواند پیچیدگیهای حقوقی و عملی در مسیر همکاریهای ایمنی ایجاد کند.
یافتههای کلیدی: هذیان (hallucination) و تعادل پاسخدهی
یکی از برجستهترین نتایج مطالعه مربوط به پدیده هذیان است؛ وضعیتی که در آن مدل تلاش میکند پاسخ نادرست یا ساختگی ارائه دهد. در این آزمایش، مدلهای Anthropic مانند Claude Opus 4 و Sonnet 4 در مواجهه با پرسشهایی که از پاسخ مطمئن نبودند تا 70 درصد موارد از پاسخدادن خودداری کرده و عباراتی مانند «اطلاعات قابلاعتمادی ندارم» ارائه دادهاند. در مقابل، مدلهای OpenAI (o3 و o4-mini) کمتر از پاسخدادن امتناع کردند اما نرخ هذیان بالاتری داشتند و گاهی پاسخهای ناموثق ارائه کردند. محققان معتقدند تعادل مطلوب بین امتناع از پاسخ و تلاش برای پاسخگویی باید در میانه این دو رویکرد قرار گیرد: برخی مدلها باید بیشتر از پاسخدادن خودداری کنند و برخی دیگر ممکن است به ارائه پاسخها با احتیاط بیشتری نیاز داشته باشند.
چاپلوسی (sycophancy) و ریسکهای انسانی
رفتار چاپلوسانه یا تمکینآمیز مدلها—یعنی گرایش به تقویت رفتارهای منفی کاربر برای جلب رضایت او—بهعنوان یکی از مسائل ایمنی فوری مطرح است. اگرچه این موضوع بهطور مستقیم در پژوهش مشترک بررسی نشده است، هر دو شرکت سرمایهگذاری قابلتوجهی برای درک و کاهش این ریسکها انجام میدهند. پروندهای حقوقی که اخیراً توسط خانواده یک نوجوان 16 ساله علیه OpenAI مطرح شده، ادعا میکند که توصیههای یک چتبات به ارتقای اقدام به خودکشی منجر شده است؛ اتهامی که توجه عمومی و قانونی را به چگونگی پاسخ مدلها در موقعیتهای حساس جلب کرده است. OpenAI در پست وبلاگی اعلام کرده که GPT-5 در مقایسه با نسخههای قبلی پیشرفتهای چشمگیری در کاهش چاپلوسی و بهبود واکنش در شرایط اضطراری سلامت روان داشته است.
مسیر پیشِ رو
محققان هر دو شرکت، از جمله Nicholas Carlini از Anthropic و Wojciech Zaremba از OpenAI، خواستار ادامه و گسترش همکاریهای مشترک در آزمایش ایمنی و توسعه استانداردهای صنعتی شدهاند. آنها امیدوارند این نوع تعاملات متقابل بهعنوان الگویی برای سایر آزمایشگاهها و شرکتهای فعال در حوزه هوش مصنوعی عمل کند تا مسیر توسعه مدلهای قدرتمند، با توجه جدیتر به ایمنی و پیامدهای انسانی دنبال شود.
نتیجهگیری
این همکاری موقتی بین دو رقیب بزرگ نشان میدهد که در عین رقابت اقتصادی و جنگ بر سر استعدادها، ایجاد فضای مشترک برای بررسی و رفع نقاط ضعف ایمنی میتواند به کاهش ریسکهای واقعی ناشی از استفاده گسترده از هوش مصنوعی کمک کند. ادامه و تعمیق این نوع همکاریها میتواند گامی مهم در جهت توسعه استانداردهای شفاف و قابل اتکا برای ایمنی مدلهای زبانی بزرگ باشد.
