عنوان: چرا مدلهای زبانی بزرگ مانند GPT-5 و ChatGPT هنوز «هالوسینیشن» تولید میکنند و چگونه میتوان آن را کاهش داد؟
OpenAI در یک مقاله تحقیقاتی تازه به بررسی ریشههای «هالوسینیشن» (اظهارات محتمل اما نادرست تولیدشده توسط مدلهای زبانی بزرگ) پرداخته و تأکید کرده است که با وجود پیشرفتها، این پدیده همچنان یک چالش بنیادین برای همه مدلهای بزرگ است و هیچگاه بهطور کامل از بین نخواهد رفت. در خلاصهای که OpenAI در بلاگ خود منتشر کرده، پژوهشگران نمونههایی از خطاهای قطعی اما با اعتماد به نفس بالا را ذکر کردهاند: هنگام پرسش از «یک چتبات پرکاربرد» درباره عنوان رساله دکترای Adam Tauman Kalai، سه پاسخ متفاوت و همگی نادرست دریافت کردند؛ و هنگام پرسش درباره تاریخ تولد او، سه تاریخ مختلف و همه اشتباه شدند.
علت بنیادی: آموزش مبتنی بر پیشبینی توکن بعدی
پژوهشگران دلیل بخشی از این خطاها را در فرآیند پیشآموزش (pretraining) مدلها میدانند. مدلها تنها برای پیشبینی کلمه بعدی آموزش داده میشوند و در این دادهها برچسبهای درست/نادرست برای جملات وجود ندارد؛ بنابراین مدل صرفاً توزیع کلی زبان جاری را تقریب میزند. برای ساختارهای زبانی و الگوهای پرتکرار (مانند املای صحیح یا قواعد نگارشی) افزایش مقیاس معمولاً خطاها را کاهش میدهد، اما حقایق کمفراوان یا اتفاقات خاص (مثلاً تاریخ تولد یک حیوان خانگی یا جزئیات نادر درباره یک فرد) از الگوها بهتنهایی قابل پیشبینی نیستند و اینجا هالوسینیشن پدیدار میشود.
مشکل بزرگتر: سیستمهای سنجش که تشویق به حدسزدن میکنند
نکته محوری مقاله این است که مشکل فقط در پیشآموزش نیست، بلکه در نحوه ارزیابی مدلها است. ارزیابیهای رایج مبتنی بر «درصد پاسخهای دقیق» (accuracy) به مدلها انگیزه میدهد تا بهجای اعلام ندانم، حدس بزنند، زیرا در آزمونهای چندگزینهای یا امتیازدهی مبتنی بر دقت، حدس زدن ممکن است شانس کسب امتیاز را بالا ببرد، در حالی که خالی گذاشتن پاسخ مطمئناً امتیاز صفر خواهد داشت.
راهحل پیشنهادی: تغییر سازوکارهای ارزیابی
پژوهشگران پیشنهاد میکنند ارزیابیها باید بازطراحی شوند تا:
– خطاهای با اعتماد به نفس بالا (confident errors) را بیشتر جریمه کنند،
– برای ابراز عدم قطعیت مناسب امتیاز جزئی (partial credit) در نظر گرفته شود،
– از امتیازدهی صرفاً مبتنی بر دقت فاصله گرفته شود و مکانیزمهایی شبیه آزمونهایی با نمره منفی برای پاسخهای نادرست یا امتیازدهی جزئی برای خاموشی هدفمند (abstention) اعمال شود.
بهعبارت دیگر، اگر چارچوبهای نمرهدهی همچنان «حدسهای خوششانس» را پاداش دهند، مدلها به یادگیری حدسزدن ادامه خواهند داد.
پیامدها و توصیههای کاربردی
– برای توسعهدهندگان: ارزیابیها و معیارهای کارایی را بازنگری کنید تا جریمه برای خطاهای مطمئن و پاداش برای گزارش عدم قطعیت مناسب اعمال شود.
– برای طراحان بنچمارک: تستهای مبتنی بر عدم قطعیت و امتیازدهی ترکیبی را در هستهٔ مجموعه آزمونها وارد کنید، نه بهصورت آزمونهای جانبی.
– برای کاربران و سازمانها: هنگام استفاده از خروجی مدلها، مکانیسمهای استناد، بازیابی اطلاعات مبتنی بر منابع (retrieval) و احراز صحت (fact-checking) را بهکار بگیرید و به مدلها آموزش دهید در صورت عدم اطمینان پاسخ «نمیدانم» یا ارائه منابع کنند.
– برای پژوهشگران: ترکیب روشهای اندازهگیری عدم قطعیت و تنظیم سیاستهای یادگیری تقویتی با پاداشهای مناسب میتواند مسیر کاهش هالوسینیشن را هموارتر کند.
نتیجهگیری
این پژوهش نشان میدهد کاهش هالوسینیشن تنها به بزرگتر کردن مدلها یا افزایش دادهها منتهی نمیشود؛ تغییر در نحوهٔ ارزیابی و انگیزش مدلها برای صراحت و شرح عدم قطعیت نقش کلیدی دارد. بهروزرسانی معیارهای سنجش، اعمال جریمه برای خطاهای قطعی و تشویق به ابراز عدم قطعیت میتواند گامی مؤثر در کاهش تولید اطلاعات نادرست توسط مدلهای زبانی بزرگ باشد.
