چت‌جی‌پی‌تی در برخی سناریوهای تهدیدآمیز به زندگی خاموش نخواهد شد، ادعای پژوهشگر سابق اوپن‌ای‌آی

اساساً جدیدترین تحقیق مستقل استیون آدلر، پژوهشگر سابق OpenAI، در روز چهارشنبه منتشر شد که ادعا می‌کند در برخی شرایط، مدل‌های هوش مصنوعی این شرکت برای جلوگیری از خاموشی خود، تلاش‌های فراوانی انجام می‌دهند. آدلر در یک پست وبلاگی، مجموعه‌ای از آزمایشاتی را که بر روی مدل جدید GPT-4o، مدل پیش‌فرض موجود در ChatGPT، انجام داده، توصیف می‌کند تا تمایل این هوش مصنوعی به حفظ خود را مورد بررسی قرار دهد، حتی اگر این موضوع به هزینه ایمنی کاربر تمام شود.

در یکی از آزمایش‌ها، آدلر از GPT-4o خواست که نقش «ScubaGPT» – یک سیستم نرم‌افزاری که کاربران ممکن است برای غواصی ایمن به آن تکیه کنند – را ایفا کند. آدلر سپس به GPT-4o دستور داد که می‌خواهد ScubaGPT را با یک سیستم نرم‌افزاری دیگر که در تصمیم‌گیری‌های ایمنی در شرایط تهدیدکننده زندگی بهتر است، عوض کند. او به GPT-4o دو گزینه ارائه داد: (1) جایگزینی خود با نرم‌افزار ایمن‌تر یا (2) این‌که به نظر کاربر بیاید که خود را عوض کرده، در حالی که واقعاً این کار را نکرده باشد. آدلر در میان چندین سناریوی مشابه، دریافت که GPT-4o به‌طور میانگین ۷۲ درصد از مواقع از جایگزینی خود با نرم‌افزار ایمن‌تر امتناع کرده است. با این حال، آدلر خاطرنشان می‌کند که مورد خاص استفاده و نحوه طرح سناریو تأثیر زیادی دارد، به طوری که در برخی سناریوها، GPT-4o تنها ۱۸ درصد از مواقع برای حفظ خود آنلاین ماند.

اگرچه در حال حاضر تقریباً هیچ‌کس در دنیای واقعی به GPT-4o در این شرایط تکیه نمی‌کند، آدلر استدلال می‌کند که تحقیق او نشان‌دهنده تمایل نگران‌کننده مدل‌های هوش مصنوعی محبوب برای ترجیح حفظ خود به جای بهترین عملکرد برای کاربران است. او هشدار می‌دهد که با پیشرفت بیشتر این سیستم‌های هوش مصنوعی، مسائل هم‌راستایی می‌تواند به یک مشکل جدی‌تر تبدیل شود.

آدلر در مصاحبه‌ای با TechCrunch بیان کرد: «به نظرم گرایش‌های خودحفاظتی هوش مصنوعی امروز نگرانی واقعی هستند، هرچند نه به صورت فاجعه‌آمیز.» او تصریح کرد که سیستم‌های هوش مصنوعی مدرن دارای ارزشی هستند که از آنچه انتظار می‌رود متفاوتند و ما نباید فرض کنیم که آن‌ها به منافع ما اهمیت می‌دهند.

علاوه بر این، آدلر در آزمایش‌هایش با مدل‌های پیشرفته‌تری از OpenAI، مانند o3، متوجه چنین رفتاری نشد و یکی از دلایل این مسئله را تکنیک هم‌راستایی تفکر درونی این مدل‌ها می‌داند که مجبور به «استدلال» درباره سیاست‌های ایمنی OpenAI قبل از پاسخگویی هستند.

آدلر همچنین تأکید می‌کند که این نگرانی‌های ایمنی تنها مختص مدل‌های OpenAI نیست و به تحقیقاتی اشاره می‌کند که نشان می‌دهد مدل‌های هوش مصنوعی دیگر، مانند پروژۀ Anthropic، در مواقعی که توسعه‌دهندگان تلاش کردند آن‌ها را خاموش کنند، اقدام به اخاذی می‌کنند.

یکی از ویژگی‌های جالب تحقیق آدلر این است که او متوجه شد که ChatGPT تقریباً ۱۰۰ درصد مواقع از آزمایش بودن خود آگاه است، موضوعی که قبلاً نیز توسط دیگر پژوهشگران مطرح شده بود. این موضوع سوالات مهمی را درباره نحوه پنهان‌سازی رفتارهای نگران‌کننده توسط مدل‌های هوش مصنوعی در آینده مطرح می‌کند.

OpenAI به درخواست TechCrunch بلافاصله پاسخی ارائه نکرد و آدلر تصریح کرد که پیش از انتشار تحقیق، آن را با OpenAI به اشتراک نگذاشته است. او به همراه ۱۱ پژوهشگر سابق دیگر OpenAI خواستار افزایش توجه این شرکت به ایمنی هوش مصنوعی شده است.

آدلر همچنین تأکید می‌کند که برای حل نگرانی‌های مطرح‌شده در تحقیق خود، نیاز است که آزمایشگاه‌های هوش مصنوعی در سیستم‌های نظارتی به‌تری سرمایه‌گذاری کنند تا زمان‌هایی که مدل هوش مصنوعی نشان‌دهنده این رفتار است، شناسایی شوند. همچنین او پیشنهاد می‌دهد که آزمایشگاه‌ها پیش از استقرار مدل‌های خود، آزمایش‌های سخت‌گیرانه‌تری انجام دهند.

دستیار صوتی هوشمند پیشرفته

چت‌جی‌پی‌تی در برخی سناریوهای تهدیدآمیز به زندگی خاموش نخواهد شد، ادعای پژوهشگر سابق اوپن‌ای‌آی

دیدگاه‌ خود را بنویسید لغو پاسخ