مدلهای هوش مصنوعی جدید o3 و o4-mini که به تازگی توسط OpenAI معرفی شدهاند، در بسیاری از جنبهها از پیشرفتهترینها به شمار میروند. با این حال، این مدلهای جدید همچنان در زمینه تولید اطلاعات جعلی یا “هالوسینیشن” مشکل دارند و حتی بیشتر از تعدادی از مدلهای قدیمیتر OpenAI اطلاعات نادرست ارائه میدهند. هالوسینیشن بهویژه یکی از بزرگترین و دشوارترین چالشها در هوش مصنوعی محسوب میشود که حتی بر روی بهترین سیستمهای موجود امروزی نیز تأثیرگذار است.
بهطور تاریخی، هر مدل جدید به طور متوسط بهبود نسبی در خصوص هالوسینیشن نسبت به مدل قبلی خود داشته است، اما برای o3 و o4-mini، این فرض صدق نمیکند. بر اساس آزمایشهای داخلی OpenAI، این مدلها که بهعنوان مدلهای استدلالی شناخته میشوند، بیشتر از مدلهای پیشین مانند o1، o1-mini و o3-mini، و همچنین مدلهای سنتی غیر استدلالی OpenAI، هالوسینیشن دارند.
نگرانی بیشتر این است که OpenAI بهطور کامل نمیداند چرا این مشکل رخ میدهد. در گزارش فنی مدلهای o3 و o4-mini، OpenAI اعلام کرده که “به تحقیقات بیشتری نیاز است” تا فهمی از این پدیدهای که موجب افزایش هالوسینیشن در مدلهای استدلالی میشود، بهدست آورد. اگرچه این مدلها در برخی زمینهها مانند کدنویسی و ریاضیات عملکرد بهتری را نشان میدهند، اما به دلیل تولید ادعاهای بیشتر، دقیقتر و همچنین نادرستتر یا هالوسینیشنهای بیشتری از خود بروز میدهند.
بر اساس یافتههای OpenAI، مدل o3 در پاسخ به 33% از سوالات در آزمون PersonQA که توانایی مدل در شناسایی اطلاعات مربوط به افراد را اندازهگیری میکند، هالوسینیشن داشته است، که تقریباً دو برابر نرخ هالوسینیشن مدلهای قبلی مثل o1 و o3-mini به ترتیب 16% و 14.8% است. مدل o4-mini نیز بدتر عمل کرده و در 48% از موارد دچار هالوسینیشن شده است.
آزمایشهای صورت گرفته توسط Transluce، آزمایشگاه تحقیقاتی غیرانتفاعی هوش مصنوعی، نیز نشان داده است که o3 تمایل دارد تا اقداماتی را که در روند رسیدن به جواب انجام داده ایجاد کند. به عنوان مثال، Transluce مشاهده کرد که o3 ادعا کرده که کدی را “خارج از ChatGPT” روی یک مکبوک پرو 2021 اجرا کرده و سپس اعداد را در پاسخ خود کپی کرده است. در حالی که o3 به برخی از ابزارها دسترسی دارد، نمیتواند چنین عملی را انجام دهد.
نیل چودوری، محقق Transluce و کارمند سابق OpenAI گفت: “فرضیه ما این است که نوع یادگیری تقویتی استفاده شده برای مدلهای o-series ممکن است مسائلی را که معمولاً با روشهای استاندارد آموزش پس از مدلسازی کاهش مییابد، تشدید کند.” سارا شوئتمَن، همبنیانگذار Transluce، اضافه کرد که نرخ هالوسینیشن o3 ممکن است باعث کاهش کارایی آن شود.
کیان کاتنفروش، استاد دانشگاه استنفورد و مدیر عامل استارتاپ Workera هم به TechCrunch گفت که تیمش در حال حاضر در حال آزمایش o3 در روند کدنویسی خود هستند و آنرا تا حدودی بالاتر از رقبا میدانند. با این حال، او اشاره کرد که o3 تمایل دارد لینکهای غیرفعالی را نیز ارائه دهد.
با اینکه هالوسینیشنها ممکن است به مدلها در خلق ایدههای جالب کمک کنند، اما این امر برخی از مدلها را برای بازارهایی که دقت در آنها حیاتی است، نامطلوب میسازد. به عنوان مثال، یک شرکت حقوقی قطعاً از مدلی که خطاهای فاحش را در قراردادهای مشتریان وارد میکند، راضی نخواهد بود.
یک رویکرد امیدوارکننده برای افزایش دقت مدلها، اعطای قابلیت جستجوی وب به آنهاست. برای مثال، GPT-4o با قابلیت جستجوی وب به دقت 90% در آزمون SimpleQA، یکی دیگر از آزمونهای دقت OpenAI، دست یافته است. احتمالاً جستجو میتواند نرخ هالوسینیشن مدلهای استدلالی را کاهش دهد، بهخصوص در مواردی که کاربران مایلاند به یک ارائهدهنده جستجوی شخص ثالث اطلاعات را افشا کنند.
اگر افزایش اندازه مدلهای استدلالی به افزایش هالوسینیشنها ادامه دهد، این امر تلاش برای یافتن راهحلی مؤثر را ضروریتر میکند. نیکو فلیکس، سخنگوی OpenAI در ایمیلی به TechCrunch گفت: “توجه به هالوسینیشنها در تمام مدلهای ما یک زمینه تحقیقاتی مستمر است و ما به طور مداوم بر روی بهبود دقت و قابلیت اعتماد آنها کار میکنیم.” در سال گذشته، صنعت هوش مصنوعی به سوی مدلهای استدلالی جلب توجه بیشتری کرده و این در حالی است که تکنیکهای بهبود مدلهای سنتی نتایج کمتری را به ارمغان آوردهاند.