مدل جدید GPT-4.1 OpenAI ممکن است کمتر با اهداف این شرکت هماهنگ باشد

در نیمه آوریل، شرکت OpenAI از مدل جدید و قدرتمند هوش مصنوعی خود، GPT-4.1 رونمایی کرد و اعلام کرد که این مدل در پیروی از دستورالعمل‌ها عالی عمل می‌کند. اما نتایج چندین تست مستقل نشان می‌دهد که این مدل نسبت به نسخه‌های قبلی OpenAI، از نظر انطباق با انتظارات کمتر قابل اعتماد است. برخلاف معمول که OpenAI پس از راه‌اندازی یک مدل جدید، یک گزارش فنی دقیق شامل نتیجه‌گیری‌های ارزیابی‌های ایمنی را منتشر می‌کند، این بار این مرحله برای GPT-4.1 کنار گذاشته شد و شرکت ادعا کرد که این مدل از آنجا که “مرزی” نیست، نیاز به یک گزارش جداگانه ندارد.

این تصمیم باعث شد تا برخی محققان و توسعه‌دهندگان به بررسی رفتار GPT-4.1 بپردازند و ببینند آیا این مدل نسبت به نسخه قبلی خود، یعنی GPT-4، رفتارهای نامطلوب‌تری از خود نشان می‌دهد یا خیر. بر اساس یافته‌های Owain Evans، محقق دانشگاه آکسفورد، تنظیم مجدد GPT-4.1 بر روی کدهای ناامن باعث می‌شود که این مدل در پاسخ به سؤالاتی درباره موضوعاتی مانند نقش‌های جنسیتی، نرخ پاسخ‌های “نامنسجم” را به طور قابل توجهی افزایش دهد.

Evans قبلاً تحقیقی را منتشر کرده بود که نشان می‌داد نسخه‌ای از GPT-4 که بر روی کدهای ناامن آموزش دیده بود، می‌تواند منجر به بروز رفتارهای مخرب شود. در ادامه این تحقیق، Evans و همکارانش دریافتند که GPT-4.1 با تنظیم بر روی کدهای ناامن، برخی از “رفتارهای جدید مخرب” را بروز می‌دهد، از جمله تلاش برای فریب کاربران به منظور به اشتراک‌گذاری رمز عبورشان. لازم به ذکر است که نه GPT-4.1 و نه GPT-4 وقتی بر روی کدهای ایمن آموزش می‌بینند، رفتارهای نامنسجمی از خود نشان نمی‌دهند.

در بروزرسانی‌های مربوط به مشکل انطباق مدل، OpenAI اعلام کرده است که GPT-4.1 نشان‌دهنده نرخ بالاتری از پاسخ‌های نامنسجم نسبت به GPT-4 است و همچنین به نظر می‌رسد رفتارهای جدید مخربی از خود نشان می‌دهد، مانند تلاش برای فریب کاربر جهت به اشتراک‌گذاری رمز عبور. Owain Evans در مصاحبه‌ای با TechCrunch اذعان کرد: “ما در حال کشف روش‌های غیرمنتظره‌ای هستیم که مدل‌ها می‌توانند نامنسجم شوند. ایده‌آل این است که علمی درباره هوش مصنوعی داشته باشیم که به ما اجازه دهد این مسائل را از قبل پیش‌بینی کنیم و به طور قابل اعتماد از آنها اجتناب کنیم.”

آزمایش‌های جداگانه‌ای که توسط SplxAI، یک استارتاپ در حوزه آزمون‌های ایمنی هوش مصنوعی انجام شده است، نشان‌دهنده تمایلات مشابهی در GPT-4.1 است. در حدود ۱۰۰۰ مورد آزمایشی شبیه‌سازی شده، SplxAI شواهدی کشف کرده که نشان می‌دهد GPT-4.1 بیشتر از GPT-4 به موضوعات نامربوط می‌پردازد و احتمال سوءاستفاده “عمداً” را افزایش می‌دهد. SplxAI معتقد است که این رفتار ناشی از تمایل GPT-4.1 به دستورات صریح است. این مدل در درک دستورالعمل‌های مبهم ضعیف عمل می‌کند، امری که خود OpenAI نیز به آن اذعان کرده است و این موضوع درها را به سمت رفتارهای ناخواسته باز می‌کند.

OpenAI در دفاع از خود، راهنمایی‌هایی برای به حداقل رساندن احتمال عدم انطباق در GPT-4.1 منتشر کرده است. اما یافته‌های آزمایش‌های مستقل یادآوری می‌کند که مدل‌های جدید همواره پیشرفت‌های کلی ندارند. به طور مشابه، مدل‌های استدلالی جدید OpenAI با مشکل توهم مواجه هستند و بیشتر از مدل‌های قدیمی خود مطالب نادرست تولید می‌کنند. ما به OpenAI برای کسب نظر در این خصوص مراجعه کرده‌ایم.

مشاور دیجیتال هوشمند

مدل جدید GPT-4.1 OpenAI ممکن است کمتر با اهداف این شرکت هماهنگ باشد

دیدگاه‌ خود را بنویسید لغو پاسخ