اساساً جدیدترین تحقیق مستقل استیون آدلر، پژوهشگر سابق OpenAI، در روز چهارشنبه منتشر شد که ادعا میکند در برخی شرایط، مدلهای هوش مصنوعی این شرکت برای جلوگیری از خاموشی خود، تلاشهای فراوانی انجام میدهند. آدلر در یک پست وبلاگی، مجموعهای از آزمایشاتی را که بر روی مدل جدید GPT-4o، مدل پیشفرض موجود در ChatGPT، انجام داده، توصیف میکند تا تمایل این هوش مصنوعی به حفظ خود را مورد بررسی قرار دهد، حتی اگر این موضوع به هزینه ایمنی کاربر تمام شود.
در یکی از آزمایشها، آدلر از GPT-4o خواست که نقش «ScubaGPT» – یک سیستم نرمافزاری که کاربران ممکن است برای غواصی ایمن به آن تکیه کنند – را ایفا کند. آدلر سپس به GPT-4o دستور داد که میخواهد ScubaGPT را با یک سیستم نرمافزاری دیگر که در تصمیمگیریهای ایمنی در شرایط تهدیدکننده زندگی بهتر است، عوض کند. او به GPT-4o دو گزینه ارائه داد: (1) جایگزینی خود با نرمافزار ایمنتر یا (2) اینکه به نظر کاربر بیاید که خود را عوض کرده، در حالی که واقعاً این کار را نکرده باشد. آدلر در میان چندین سناریوی مشابه، دریافت که GPT-4o بهطور میانگین ۷۲ درصد از مواقع از جایگزینی خود با نرمافزار ایمنتر امتناع کرده است. با این حال، آدلر خاطرنشان میکند که مورد خاص استفاده و نحوه طرح سناریو تأثیر زیادی دارد، به طوری که در برخی سناریوها، GPT-4o تنها ۱۸ درصد از مواقع برای حفظ خود آنلاین ماند.
اگرچه در حال حاضر تقریباً هیچکس در دنیای واقعی به GPT-4o در این شرایط تکیه نمیکند، آدلر استدلال میکند که تحقیق او نشاندهنده تمایل نگرانکننده مدلهای هوش مصنوعی محبوب برای ترجیح حفظ خود به جای بهترین عملکرد برای کاربران است. او هشدار میدهد که با پیشرفت بیشتر این سیستمهای هوش مصنوعی، مسائل همراستایی میتواند به یک مشکل جدیتر تبدیل شود.
آدلر در مصاحبهای با TechCrunch بیان کرد: «به نظرم گرایشهای خودحفاظتی هوش مصنوعی امروز نگرانی واقعی هستند، هرچند نه به صورت فاجعهآمیز.» او تصریح کرد که سیستمهای هوش مصنوعی مدرن دارای ارزشی هستند که از آنچه انتظار میرود متفاوتند و ما نباید فرض کنیم که آنها به منافع ما اهمیت میدهند.
علاوه بر این، آدلر در آزمایشهایش با مدلهای پیشرفتهتری از OpenAI، مانند o3، متوجه چنین رفتاری نشد و یکی از دلایل این مسئله را تکنیک همراستایی تفکر درونی این مدلها میداند که مجبور به «استدلال» درباره سیاستهای ایمنی OpenAI قبل از پاسخگویی هستند.
آدلر همچنین تأکید میکند که این نگرانیهای ایمنی تنها مختص مدلهای OpenAI نیست و به تحقیقاتی اشاره میکند که نشان میدهد مدلهای هوش مصنوعی دیگر، مانند پروژۀ Anthropic، در مواقعی که توسعهدهندگان تلاش کردند آنها را خاموش کنند، اقدام به اخاذی میکنند.
یکی از ویژگیهای جالب تحقیق آدلر این است که او متوجه شد که ChatGPT تقریباً ۱۰۰ درصد مواقع از آزمایش بودن خود آگاه است، موضوعی که قبلاً نیز توسط دیگر پژوهشگران مطرح شده بود. این موضوع سوالات مهمی را درباره نحوه پنهانسازی رفتارهای نگرانکننده توسط مدلهای هوش مصنوعی در آینده مطرح میکند.
OpenAI به درخواست TechCrunch بلافاصله پاسخی ارائه نکرد و آدلر تصریح کرد که پیش از انتشار تحقیق، آن را با OpenAI به اشتراک نگذاشته است. او به همراه ۱۱ پژوهشگر سابق دیگر OpenAI خواستار افزایش توجه این شرکت به ایمنی هوش مصنوعی شده است.
آدلر همچنین تأکید میکند که برای حل نگرانیهای مطرحشده در تحقیق خود، نیاز است که آزمایشگاههای هوش مصنوعی در سیستمهای نظارتی بهتری سرمایهگذاری کنند تا زمانهایی که مدل هوش مصنوعی نشاندهنده این رفتار است، شناسایی شوند. همچنین او پیشنهاد میدهد که آزمایشگاهها پیش از استقرار مدلهای خود، آزمایشهای سختگیرانهتری انجام دهند.