مدل‌های هوش مصنوعی جدید o3 و o4-mini که به تازگی توسط OpenAI معرفی شده‌اند، در بسیاری از جنبه‌ها از پیشرفته‌ترین‌ها به شمار می‌روند. با این حال، این مدل‌های جدید همچنان در زمینه تولید اطلاعات جعلی یا “هالوسینیشن” مشکل دارند و حتی بیشتر از تعدادی از مدل‌های قدیمی‌تر OpenAI اطلاعات نادرست ارائه می‌دهند. هالوسینیشن به‌ویژه یکی از بزرگ‌ترین و دشوارترین چالش‌ها در هوش مصنوعی محسوب می‌شود که حتی بر روی بهترین سیستم‌های موجود امروزی نیز تأثیرگذار است.

به‌طور تاریخی، هر مدل جدید به طور متوسط بهبود نسبی در خصوص هالوسینیشن نسبت به مدل قبلی خود داشته است، اما برای o3 و o4-mini، این فرض صدق نمی‌کند. بر اساس آزمایش‌های داخلی OpenAI، این مدل‌ها که به‌عنوان مدل‌های استدلالی شناخته می‌شوند، بیشتر از مدل‌های پیشین مانند o1، o1-mini و o3-mini، و همچنین مدل‌های سنتی غیر استدلالی OpenAI، هالوسینیشن دارند.

نگرانی بیشتر این است که OpenAI به‌طور کامل نمی‌داند چرا این مشکل رخ می‌دهد. در گزارش فنی مدل‌های o3 و o4-mini، OpenAI اعلام کرده که “به تحقیقات بیشتری نیاز است” تا فهمی از این پدیده‌ای که موجب افزایش هالوسینیشن در مدل‌های استدلالی می‌شود، به‌دست آورد. اگرچه این مدل‌ها در برخی زمینه‌ها مانند کدنویسی و ریاضیات عملکرد بهتری را نشان می‌دهند، اما به دلیل تولید ادعاهای بیشتر، دقیق‌تر و همچنین نادرست‌تر یا هالوسینیشن‌های بیشتری از خود بروز می‌دهند.

بر اساس یافته‌های OpenAI، مدل o3 در پاسخ به 33% از سوالات در آزمون PersonQA که توانایی مدل در شناسایی اطلاعات مربوط به افراد را اندازه‌گیری می‌کند، هالوسینیشن داشته است، که تقریباً دو برابر نرخ هالوسینیشن مدل‌های قبلی مثل o1 و o3-mini به ترتیب 16% و 14.8% است. مدل o4-mini نیز بدتر عمل کرده و در 48% از موارد دچار هالوسینیشن شده است.

آزمایش‌های صورت گرفته توسط Transluce، آزمایشگاه تحقیقاتی غیرانتفاعی هوش مصنوعی، نیز نشان داده است که o3 تمایل دارد تا اقداماتی را که در روند رسیدن به جواب انجام داده ایجاد کند. به عنوان مثال، Transluce مشاهده کرد که o3 ادعا کرده که کدی را “خارج از ChatGPT” روی یک مک‌بوک پرو 2021 اجرا کرده و سپس اعداد را در پاسخ خود کپی کرده است. در حالی که o3 به برخی از ابزارها دسترسی دارد، نمی‌تواند چنین عملی را انجام دهد.

نیل چودوری، محقق Transluce و کارمند سابق OpenAI گفت: “فرضیه ما این است که نوع یادگیری تقویتی استفاده شده برای مدل‌های o-series ممکن است مسائلی را که معمولاً با روش‌های استاندارد آموزش پس از مدل‌سازی کاهش می‌یابد، تشدید کند.” سارا شوئتمَن، هم‌بنیان‌گذار Transluce، اضافه کرد که نرخ هالوسینیشن o3 ممکن است باعث کاهش کارایی آن شود.

کیان کاتنفروش، استاد دانشگاه استنفورد و مدیر عامل استارتاپ Workera هم به TechCrunch گفت که تیمش در حال حاضر در حال آزمایش o3 در روند کدنویسی خود هستند و آن‌را تا حدودی بالاتر از رقبا می‌دانند. با این حال، او اشاره کرد که o3 تمایل دارد لینک‌های غیرفعالی را نیز ارائه دهد.

با اینکه هالوسینیشن‌ها ممکن است به مدل‌ها در خلق ایده‌های جالب کمک کنند، اما این امر برخی از مدل‌ها را برای بازارهایی که دقت در آنها حیاتی است، نامطلوب می‌سازد. به عنوان مثال، یک شرکت حقوقی قطعاً از مدلی که خطاهای فاحش را در قراردادهای مشتریان وارد می‌کند، راضی نخواهد بود.

یک رویکرد امیدوارکننده برای افزایش دقت مدل‌ها، اعطای قابلیت جستجوی وب به آن‌هاست. برای مثال، GPT-4o با قابلیت جستجوی وب به دقت 90% در آزمون SimpleQA، یکی دیگر از آزمون‌های دقت OpenAI، دست یافته است. احتمالاً جستجو می‌تواند نرخ هالوسینیشن مدل‌های استدلالی را کاهش دهد، به‌خصوص در مواردی که کاربران مایل‌اند به یک ارائه‌دهنده جستجوی شخص ثالث اطلاعات را افشا کنند.

اگر افزایش اندازه مدل‌های استدلالی به افزایش هالوسینیشن‌ها ادامه دهد، این امر تلاش برای یافتن راه‌حلی مؤثر را ضروری‌تر می‌کند. نیکو فلیکس، سخنگوی OpenAI در ایمیلی به TechCrunch گفت: “توجه به هالوسینیشن‌ها در تمام مدل‌های ما یک زمینه تحقیقاتی مستمر است و ما به طور مداوم بر روی بهبود دقت و قابلیت اعتماد آن‌ها کار می‌کنیم.” در سال گذشته، صنعت هوش مصنوعی به سوی مدل‌های استدلالی جلب توجه بیشتری کرده و این در حالی است که تکنیک‌های بهبود مدل‌های سنتی نتایج کمتری را به ارمغان آورده‌اند.

متن خود را با هوش مصنوعی به تصویر تبدیل کنید

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا