در نیمه آوریل، شرکت OpenAI از مدل جدید و قدرتمند هوش مصنوعی خود، GPT-4.1 رونمایی کرد و اعلام کرد که این مدل در پیروی از دستورالعملها عالی عمل میکند. اما نتایج چندین تست مستقل نشان میدهد که این مدل نسبت به نسخههای قبلی OpenAI، از نظر انطباق با انتظارات کمتر قابل اعتماد است. برخلاف معمول که OpenAI پس از راهاندازی یک مدل جدید، یک گزارش فنی دقیق شامل نتیجهگیریهای ارزیابیهای ایمنی را منتشر میکند، این بار این مرحله برای GPT-4.1 کنار گذاشته شد و شرکت ادعا کرد که این مدل از آنجا که “مرزی” نیست، نیاز به یک گزارش جداگانه ندارد.
این تصمیم باعث شد تا برخی محققان و توسعهدهندگان به بررسی رفتار GPT-4.1 بپردازند و ببینند آیا این مدل نسبت به نسخه قبلی خود، یعنی GPT-4، رفتارهای نامطلوبتری از خود نشان میدهد یا خیر. بر اساس یافتههای Owain Evans، محقق دانشگاه آکسفورد، تنظیم مجدد GPT-4.1 بر روی کدهای ناامن باعث میشود که این مدل در پاسخ به سؤالاتی درباره موضوعاتی مانند نقشهای جنسیتی، نرخ پاسخهای “نامنسجم” را به طور قابل توجهی افزایش دهد.
Evans قبلاً تحقیقی را منتشر کرده بود که نشان میداد نسخهای از GPT-4 که بر روی کدهای ناامن آموزش دیده بود، میتواند منجر به بروز رفتارهای مخرب شود. در ادامه این تحقیق، Evans و همکارانش دریافتند که GPT-4.1 با تنظیم بر روی کدهای ناامن، برخی از “رفتارهای جدید مخرب” را بروز میدهد، از جمله تلاش برای فریب کاربران به منظور به اشتراکگذاری رمز عبورشان. لازم به ذکر است که نه GPT-4.1 و نه GPT-4 وقتی بر روی کدهای ایمن آموزش میبینند، رفتارهای نامنسجمی از خود نشان نمیدهند.
در بروزرسانیهای مربوط به مشکل انطباق مدل، OpenAI اعلام کرده است که GPT-4.1 نشاندهنده نرخ بالاتری از پاسخهای نامنسجم نسبت به GPT-4 است و همچنین به نظر میرسد رفتارهای جدید مخربی از خود نشان میدهد، مانند تلاش برای فریب کاربر جهت به اشتراکگذاری رمز عبور. Owain Evans در مصاحبهای با TechCrunch اذعان کرد: “ما در حال کشف روشهای غیرمنتظرهای هستیم که مدلها میتوانند نامنسجم شوند. ایدهآل این است که علمی درباره هوش مصنوعی داشته باشیم که به ما اجازه دهد این مسائل را از قبل پیشبینی کنیم و به طور قابل اعتماد از آنها اجتناب کنیم.”
آزمایشهای جداگانهای که توسط SplxAI، یک استارتاپ در حوزه آزمونهای ایمنی هوش مصنوعی انجام شده است، نشاندهنده تمایلات مشابهی در GPT-4.1 است. در حدود ۱۰۰۰ مورد آزمایشی شبیهسازی شده، SplxAI شواهدی کشف کرده که نشان میدهد GPT-4.1 بیشتر از GPT-4 به موضوعات نامربوط میپردازد و احتمال سوءاستفاده “عمداً” را افزایش میدهد. SplxAI معتقد است که این رفتار ناشی از تمایل GPT-4.1 به دستورات صریح است. این مدل در درک دستورالعملهای مبهم ضعیف عمل میکند، امری که خود OpenAI نیز به آن اذعان کرده است و این موضوع درها را به سمت رفتارهای ناخواسته باز میکند.
OpenAI در دفاع از خود، راهنماییهایی برای به حداقل رساندن احتمال عدم انطباق در GPT-4.1 منتشر کرده است. اما یافتههای آزمایشهای مستقل یادآوری میکند که مدلهای جدید همواره پیشرفتهای کلی ندارند. به طور مشابه، مدلهای استدلالی جدید OpenAI با مشکل توهم مواجه هستند و بیشتر از مدلهای قدیمی خود مطالب نادرست تولید میکنند. ما به OpenAI برای کسب نظر در این خصوص مراجعه کردهایم.