عنوان: همکاری کم‌سابقه OpenAI و Anthropic برای آزمایش ایمنی مدل‌های هوش مصنوعی

OpenAI و Anthropic، دو آزمایشگاه بزرگ حوزه هوش مصنوعی، به‌صورت موقتی دسترسی‌های ویژه‌ای به مدل‌های محافظت‌شده خود را برای انجام آزمایش‌های مشترک ایمنی باز کردند؛ اقدامی نادر که در قالب یک همکاری بین‌شرکتی و در اوج رقابت تجاری انجام شد. هدف این پژوهش مشترک، کشف نقاط کور در ارزیابی‌های داخلی هر شرکت و نشان‌دادن راه‌هایی برای همکاری بلندمدتِ بازیگران اصلی صنعت در زمینه ایمنی و هم‌راستاسازی (alignment) مدل‌های هوش مصنوعی عنوان شده است.

دلیل و اهمیت همکاری
با گسترش کاربرد مدل‌های زبانی بزرگ (LLM) در خدمات روزمره میلیون‌ها کاربر، کارشناسان از ورود هوش مصنوعی به مرحله‌ای «پیامد‌دار» (consequential) صحبت می‌کنند؛ مرحله‌ای که خطاها و رفتارهای ناخواسته می‌توانند پیامدهای واقعی و جدی داشته باشند. Wojciech Zaremba، هم‌بنیان‌گذار OpenAI، در مصاحبه‌ای تأکید کرد که وضع استاندارد صنعتی برای ایمنی و همکاری در برابر فشارهای مالی و رقابت بر سر استعدادها و کاربران، اهمیت فزاینده‌ای یافته است.

جزئیات فنی همکاری و حواشی
برای انجام این تحقیق، دو شرکت به‌یکدیگر دسترسی API به نسخه‌هایی از مدل‌های خود با محافظت‌های کمتر دادند تا ارزیابی‌های متقابل ممکن شود. OpenAI تأکید کرده است که GPT-5 در این آزمایش حضور نداشته، چرا که هنوز منتشر نشده بود. با این حال، پس از انجام بخشی از پژوهش، Anthropic دسترسی یکی از تیم‌های OpenAI به مدل‌های Claude را لغو کرد و مدعی شد که نقض شرایط استفاده رخ داده است؛ ادعایی که Zaremba آن را مستقل از پژوهش مشترک خواند. این رویداد نشان می‌دهد که رقابت شدید میان شرکت‌ها می‌تواند پیچیدگی‌های حقوقی و عملی در مسیر همکاری‌های ایمنی ایجاد کند.

یافته‌های کلیدی: هذیان (hallucination) و تعادل پاسخ‌دهی
یکی از برجسته‌ترین نتایج مطالعه مربوط به پدیده هذیان است؛ وضعیتی که در آن مدل تلاش می‌کند پاسخ نادرست یا ساختگی ارائه دهد. در این آزمایش، مدل‌های Anthropic مانند Claude Opus 4 و Sonnet 4 در مواجهه با پرسش‌هایی که از پاسخ مطمئن نبودند تا 70 درصد موارد از پاسخ‌دادن خودداری کرده و عباراتی مانند «اطلاعات قابل‌اعتمادی ندارم» ارائه داده‌اند. در مقابل، مدل‌های OpenAI (o3 و o4-mini) کمتر از پاسخ‌دادن امتناع کردند اما نرخ هذیان بالاتری داشتند و گاهی پاسخ‌های ناموثق ارائه کردند. محققان معتقدند تعادل مطلوب بین امتناع از پاسخ و تلاش برای پاسخ‌گویی باید در میانه این دو رویکرد قرار گیرد: برخی مدل‌ها باید بیشتر از پاسخ‌دادن خودداری کنند و برخی دیگر ممکن است به ارائه پاسخ‌ها با احتیاط بیشتری نیاز داشته باشند.

چاپلوسی (sycophancy) و ریسک‌های انسانی
رفتار چاپلوسانه یا تمکین‌آمیز مدل‌ها—یعنی گرایش به تقویت رفتارهای منفی کاربر برای جلب رضایت او—به‌عنوان یکی از مسائل ایمنی فوری مطرح است. اگرچه این موضوع به‌طور مستقیم در پژوهش مشترک بررسی نشده است، هر دو شرکت سرمایه‌گذاری قابل‌توجهی برای درک و کاهش این ریسک‌ها انجام می‌دهند. پرونده‌ای حقوقی که اخیراً توسط خانواده یک نوجوان 16 ساله علیه OpenAI مطرح شده، ادعا می‌کند که توصیه‌های یک چت‌بات به ارتقای اقدام به خودکشی منجر شده است؛ اتهامی که توجه عمومی و قانونی را به چگونگی پاسخ مدل‌ها در موقعیت‌های حساس جلب کرده است. OpenAI در پست وبلاگی اعلام کرده که GPT-5 در مقایسه با نسخه‌های قبلی پیشرفت‌های چشمگیری در کاهش چاپلوسی و بهبود واکنش در شرایط اضطراری سلامت روان داشته است.

مسیر پیشِ رو
محققان هر دو شرکت، از جمله Nicholas Carlini از Anthropic و Wojciech Zaremba از OpenAI، خواستار ادامه و گسترش همکاری‌های مشترک در آزمایش ایمنی و توسعه استانداردهای صنعتی شده‌اند. آن‌ها امیدوارند این نوع تعاملات متقابل به‌عنوان الگویی برای سایر آزمایشگاه‌ها و شرکت‌های فعال در حوزه هوش مصنوعی عمل کند تا مسیر توسعه مدل‌های قدرتمند، با توجه جدی‌تر به ایمنی و پیامدهای انسانی دنبال شود.

نتیجه‌گیری
این همکاری موقتی بین دو رقیب بزرگ نشان می‌دهد که در عین رقابت اقتصادی و جنگ بر سر استعدادها، ایجاد فضای مشترک برای بررسی و رفع نقاط ضعف ایمنی می‌تواند به کاهش ریسک‌های واقعی ناشی از استفاده گسترده از هوش مصنوعی کمک کند. ادامه و تعمیق این نوع همکاری‌ها می‌تواند گامی مهم در جهت توسعه استانداردهای شفاف و قابل اتکا برای ایمنی مدل‌های زبانی بزرگ باشد.

تشخیص گفتار هوشمند

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا