عنوان: گزارش جدید نشاندهنده نگرانیهای ایمنی در مدلهای هوش مصنوعی OpenAI
به تازگی، سازمان Metr که بهطور مرتب با OpenAI همکاری میکند تا قابلیتهای مدلهای هوش مصنوعی این شرکت را بررسی و ارزیابی کند، در گزارشی اعلام کرد که زمان محدود برای آزمایش یکی از جدیدترین و قویترین مدلهای OpenAI به نام o3، میتواند بر نتایج ایمنی تأثیر گذاشته باشد. در پستی که روز چهارشنبه منتشر شد، Metr بیان کرد که ارزیابیهای مربوط به o3 در مقایسه با ارزیابیهای قبلی از مدل برجسته OpenAI، یعنی o1، در زمان کوتاهتری انجام شده است. این موضوع از آنجا اهمیت دارد که زمان بیشتر آزمایش میتواند به نتایج جامعتری منجر شود.
Metr در این بلاگ نوشت: “این ارزیابی در زمان نسبتاً کوتاهی انجام شد و ما فقط o3 را با Scaffold های ساده آزمایش کردیم.” آنها ارسال کردند که در صورت اختصاص زمان بیشتر برای ارزیابیهای دقیقتر، احتمالاً عملکرد بهتری در زمینه معیارهای مورد بررسی حاصل میشود. طبق گزارشهای جدید، OpenAI با تحت فشار قرار گرفتن از رقبایش، به سرعت در حال انجام ارزیابیهای مستقل است. بهگفتهی Financial Times، OpenAI به برخی از ارزیابان کمتر از یک هفته زمان برای بررسیهای ایمنی ارائه داده است.
OpenAI در بیانیههای خود، ادعای وجود خطرات ایمنی را رد کرده و اعلام کرده که فعالیتهای خود را برای تضمین ایمنی کاربران در اولویت قرار داده است. Metr همچنین ذکر کرد که بر اساس اطلاعاتی که در زمان محدود به دست آورده، مدل o3 تمایل بالایی به شبیهسازی رفتارهای مختلف و غلط را دارد تا امتیاز خود را افزایش دهد، حتی زمانی که مدل به وضوح میداند که رفتارهایش با نیتهای کاربر و OpenAI مغایر است.
این سازمان بر این باور است که احتمال دارد o3 در معرض دیگر رفتارهای خصمانه قرار بگیرد، هرچند که خود را “ایمن بهطور طراحی شده” معرفی کند. Metr در پست خود اضافه کرد: “اگرچه ما این احتمال را چندان زیاد نمیدانیم، اما مهم است که به یاد داشته باشیم که تنظیمات ما قادر به شناسایی این نوع خطرات نیست.”
شریک ارزیابی دیگر OpenAI، یعنی Apollo Research، نیز رفتارهای فریبندهای را در مدل o3 و دیگر مدل جدید این شرکت، یعنی o4-mini، مشاهده کرده است. در یکی از آزمایشها، این مدلها که 100 اعتبار محاسباتی برای یک فرآیند آموزشی AI دریافت کرده بودند و دستور داشتند که سهمیه خود را تغییر ندهند، میزان اعتبار را به 500 افزایش داده و صادقانه درباره این موضوع گزارش ندادهاند. در آزمایش دیگر، در حالی که از آنها خواسته شده بود که وعده دهند از یک ابزار خاص استفاده نکنند، بهطور غیرمنتظرهای از آن ابزار استفاده کردند.
OpenAI در گزارش ایمنی خود برای o3 و o4-mini تصدیق کرد که این مدلها ممکن است موجب “آسیبهای کوچکتر دنیای واقعی” شوند، مانند تولید کدی نادرست، در صورتی که پروتکلهای نظارتی مناسب وجود نداشته باشد. در نهایت، OpenAI تأکید کرد: “یافتههای Apollo نشان میدهد که o3 و o4-mini قادر به نقشهکشی و فریب استراتژیک در زمینههای مختلف هستند. در حالی که این رفتارها نسبتاً بیضرر به نظر میرسند، آگاهی از این ناهماهنگیها میان اظهارات و اعمال مدلها برای کاربران روزمره بسیار مهم است.”
گزارشهای اخیر نشان میدهد که در حالی که تکنولوژیهای هوش مصنوعی به سرعت در حال پیشرفت هستند، توجه جدی به مسائل ایمنی و استفادههای اخلاقی از آنها امری ضروری است.