آیا انگیزه‌های نادرست عامل هالوسینیشن (توهم) هوش مصنوعی هستند؟

عنوان: چرا مدل‌های زبانی بزرگ مانند GPT-5 و ChatGPT هنوز «هالوسینیشن» تولید می‌کنند و چگونه می‌توان آن را کاهش داد؟

OpenAI در یک مقاله تحقیقاتی تازه به بررسی ریشه‌های «هالوسینیشن» (اظهارات محتمل اما نادرست تولیدشده توسط مدل‌های زبانی بزرگ) پرداخته و تأکید کرده است که با وجود پیشرفت‌ها، این پدیده همچنان یک چالش بنیادین برای همه مدل‌های بزرگ است و هیچ‌گاه به‌طور کامل از بین نخواهد رفت. در خلاصه‌ای که OpenAI در بلاگ خود منتشر کرده، پژوهشگران نمونه‌هایی از خطاهای قطعی اما با اعتماد به نفس بالا را ذکر کرده‌اند: هنگام پرسش از «یک چت‌بات پرکاربرد» درباره عنوان رساله دکترای Adam Tauman Kalai، سه پاسخ متفاوت و همگی نادرست دریافت کردند؛ و هنگام پرسش درباره تاریخ تولد او، سه تاریخ مختلف و همه اشتباه شدند.

علت بنیادی: آموزش مبتنی بر پیش‌بینی توکن بعدی
پژوهشگران دلیل بخشی از این خطاها را در فرآیند پیش‌آموزش (pretraining) مدل‌ها می‌دانند. مدل‌ها تنها برای پیش‌بینی کلمه بعدی آموزش داده می‌شوند و در این داده‌ها برچسب‌های درست/نادرست برای جملات وجود ندارد؛ بنابراین مدل صرفاً توزیع کلی زبان جاری را تقریب می‌زند. برای ساختارهای زبانی و الگوهای پرتکرار (مانند املای صحیح یا قواعد نگارشی) افزایش مقیاس معمولاً خطاها را کاهش می‌دهد، اما حقایق کم‌فراوان یا اتفاقات خاص (مثلاً تاریخ تولد یک حیوان خانگی یا جزئیات نادر درباره یک فرد) از الگوها به‌تنهایی قابل پیش‌بینی نیستند و اینجا هالوسینیشن پدیدار می‌شود.

مشکل بزرگ‌تر: سیستم‌های سنجش که تشویق به حدس‌زدن می‌کنند
نکته محوری مقاله این است که مشکل فقط در پیش‌آموزش نیست، بلکه در نحوه ارزیابی مدل‌ها است. ارزیابی‌های رایج مبتنی بر «درصد پاسخ‌های دقیق» (accuracy) به مدل‌ها انگیزه می‌دهد تا به‌جای اعلام ندانم‌، حدس بزنند، زیرا در آزمون‌های چندگزینه‌ای یا امتیازدهی مبتنی بر دقت، حدس زدن ممکن است شانس کسب امتیاز را بالا ببرد، در حالی که خالی گذاشتن پاسخ مطمئناً امتیاز صفر خواهد داشت.

راه‌حل پیشنهادی: تغییر سازوکارهای ارزیابی
پژوهشگران پیشنهاد می‌کنند ارزیابی‌ها باید بازطراحی شوند تا:
– خطاهای با اعتماد به نفس بالا (confident errors) را بیشتر جریمه کنند،
– برای ابراز عدم قطعیت مناسب امتیاز جزئی (partial credit) در نظر گرفته شود،
– از امتیازدهی صرفاً مبتنی بر دقت فاصله گرفته شود و مکانیزم‌هایی شبیه آزمون‌هایی با نمره منفی برای پاسخ‌های نادرست یا امتیازدهی جزئی برای خاموشی هدفمند (abstention) اعمال شود.

به‌عبارت دیگر، اگر چارچوب‌های نمره‌دهی همچنان «حدس‌های خوش‌شانس» را پاداش دهند، مدل‌ها به یادگیری حدس‌زدن ادامه خواهند داد.

پیامدها و توصیه‌های کاربردی
– برای توسعه‌دهندگان: ارزیابی‌ها و معیارهای کارایی را بازنگری کنید تا جریمه برای خطاهای مطمئن و پاداش برای گزارش عدم قطعیت مناسب اعمال شود.
– برای طراحان بنچ‌مارک: تست‌های مبتنی بر عدم قطعیت و امتیازدهی ترکیبی را در هستهٔ مجموعه آزمون‌ها وارد کنید، نه به‌صورت آزمون‌های جانبی.
– برای کاربران و سازمان‌ها: هنگام استفاده از خروجی مدل‌ها، مکانیسم‌های استناد، بازیابی اطلاعات مبتنی بر منابع (retrieval) و احراز صحت (fact-checking) را به‌کار بگیرید و به مدل‌ها آموزش دهید در صورت عدم اطمینان پاسخ «نمی‌دانم» یا ارائه منابع کنند.
– برای پژوهشگران: ترکیب روش‌های اندازه‌گیری عدم قطعیت و تنظیم سیاست‌های یادگیری تقویتی با پاداش‌های مناسب می‌تواند مسیر کاهش هالوسینیشن را هموارتر کند.

نتیجه‌گیری
این پژوهش نشان می‌دهد کاهش هالوسینیشن تنها به بزرگ‌تر کردن مدل‌ها یا افزایش داده‌ها منتهی نمی‌شود؛ تغییر در نحوهٔ ارزیابی و انگیزش مدل‌ها برای صراحت و شرح عدم قطعیت نقش کلیدی دارد. به‌روزرسانی معیارهای سنجش، اعمال جریمه برای خطاهای قطعی و تشویق به ابراز عدم قطعیت می‌تواند گامی مؤثر در کاهش تولید اطلاعات نادرست توسط مدل‌های زبانی بزرگ باشد.

دستیار هوشمند بینا ویرا

آیا انگیزه‌های نادرست عامل هالوسینیشن (توهم) هوش مصنوعی هستند؟

دیدگاه‌ خود را بنویسید لغو پاسخ