OpenAI اعلام کرده است که یک سیستم جدید برای نظارت بر مدلهای استدلال هوش مصنوعی خود، به نامهای o3 و o4-mini، راهاندازی کرده است. این سیستم بهمنظور شناسایی و جلوگیری از ارائه مشاورههایی که میتواند به ایجاد حملات زیستی و شیمیایی کمک کند، طراحی شده است. طبق گزارش ایمنی OpenAI، o3 و o4-mini بهطور قابل توجهی از لحاظ قابلیتها نسبت به مدلهای قبلی این شرکت پیشرفتهتر هستند و این امر میتواند خطرات جدیدی را بهدنبال داشته باشد، بهویژه در دست بدافزاران.
بر اساس سنجشهای داخلی OpenAI، مدل o3 توانایی بالاتری در پاسخ به سؤالات مربوط به ایجاد نوعی از تهدیدات زیستی دارد. به همین دلیل و برای کاهش خطرات دیگر، این شرکت تصمیم به ایجاد سیستم نظارتی جدیدی گرفت که بهعنوان “ناظر استدلال ایمن” معرفی شده و بر روی o3 و o4-mini اجرا میشود. این ناظر بهطور ویژه برای ارزیابی تطابق محتوای مدلها با سیاستهای محتوایی OpenAI آموزش دیده است و قادر است درخواستهای مربوط به خطرات زیستی و شیمیایی را شناسایی کرده و به مدلها دستور دهد تا در این زمینه مشاورهای ارائه ندهند.
بهمنظور ایجاد یک پایه قابل اعتماد، اعضای تیم قرمز OpenAI حدود ۱۰۰۰ ساعت روی شناسایی مکالمات مرتبط با ریسکهای بایو غیر ایمن در o3 و o4-mini کار کردند. در یک آزمون که OpenAI منطق مسدودسازی ناظر ایمنی خود را شبیهسازی کرد، مدلها تقریباً ۹۸.۷٪ از زمانها به درخواستهای پرخطر پاسخ ندادند. با اینحال، OpenAI تصدیق میکند که این آزمون مواردی را که ممکن است افراد پس از مسدود شدن توسط ناظر، درخواستهای جدیدی مطرح کنند، مد نظر قرار نداده است و به همین علت این شرکت قصد دارد بهطور جزئی به نظارت انسانی نیز تکیه کند.
OpenAI تأکید کرده که مدلهای o3 و o4-mini به هیچ عنوان از مرز “خطر بالا” برای ریسکهای زیستی عبور نمیکنند. با این حال، در مقایسه با مدلهای o1 و GPT-4، نسخههای اولیه o3 و o4-mini در پاسخ به سؤالات مربوط به توسعه سلاحهای بیولوژیکی کمک بیشتری کردهاند. این شرکت بهطور فعال در حال بررسی این موضوع است که چطور مدلهایش میتوانند کار را برای کاربران بدخواه در زمینه توسعه تهدیدات شیمیایی و زیستی آسانتر کنند.
OpenAI بهطور فزایندهای بر روی سیستمهای خودکار برای کاهش خطرات ناشی از مدلهای خود تکیه میکند. بهعنوان مثال، برای جلوگیری از تولید محتوای سوءاستفاده جنسی از کودکان (CSAM) توسط تولیدکننده تصاویر داخلی GPT-4، OpenAI از ناظری مشابه استفاده میکند که برای o3 و o4-mini راهاندازی شده است. با این حال، برخی پژوهشگران نسبت به اولویت ندادن OpenAI به ایمنی آنطور که باید ابراز نگرانی کردهاند. یکی از شرکای تیم قرمز این شرکت، Metr، گفته است که زمان کمی برای آزمون o3 در یک معیار مربوط به رفتار فریبنده داشت. بهطور همزمان، OpenAI تصمیم به عدم انتشار گزارش ایمنی برای مدل GPT-4.1 خود که اوایل این هفته راهاندازی شد، گرفته است.