نتایج یک مطالعه جدید نشان میدهد که درخواست از چتباتهای هوش مصنوعی برای پاسخهای مختصر ممکن است باعث افزایش خطاهای آنها شود. این تحقیقات توسط شرکت Giskard، یک شرکت تست هوش مصنوعی مستقر در پاریس که در حال توسعه یک معیار جامع برای مدلهای هوش مصنوعی است، انجام شده است. محققان Giskard در یک پست وبلاگی به جزئیات این یافتهها پرداخته و میگویند که درخواست برای پاسخهای کوتاه، به ویژه در زمینههای مبهم، میتواند تأثیر منفی بر دقت مدلهای هوش مصنوعی بگذارد.
محققان خاطرنشان کردند: “دادههای ما نشان میدهد که تغییرات ساده در دستورالعملهای سیستم بهطور قابل توجهی بر تمایل مدل به تولید خطا تأثیر میگذارد.” این یافتهها اهمیت زیادی در کاربردهای عملی هوش مصنوعی دارند، زیرا بسیاری از برنامهها اولویت را به خروجیهای مختصر میدهند تا مصرف داده را کاهش دهند، زمان تأخیر را بهبود بخشند و هزینهها را به حداقل برسانند.
خطاهای ناشی از هوش مصنوعی (hallucinations) یک چالش غیرقابل اجتناب در این حوزه محسوب میشوند و حتی مدلهای پیشرفته نیز گاهی اوقات اطلاعات نادرست تولید میکنند. بهویژه، مدلهای جدیدی مانند o3 از OpenAI در مقایسه با مدلهای پیشین، به طور قابل توجهی بیشتر دچار این خطاها میشوند که این موضوع قابل اعتماد بودن خروجیها را دشوار میکند.
در این مطالعه، Giskard معین کرد که برخی از درخواستها میتوانند خطاهای ناشی از هوش مصنوعی را تشدید کنند، مانند سوالات مبهم و نادرست که درخواستکننده را وادار به پاسخهای کوتاه میکند. برای نمونه، مدلهای پیشرفتهای مانند GPT-4o (مدل پیشفرض ChatGPT)، Mistral Large و Claude 3.7 Sonnet زمانی که از آنها خواسته میشود پاسخها را کوتاه نگه دارند، با کاهش دقت اطلاعات روبرو میشوند.
محققان Giskard این احتمال را مطرح کردند که هنگامی که به مدلها گفته میشود که نباید به جزئیات بپردازند، آنها فضایی برای شناخت اشتباهات و اشاره به نادرستیها ندارند. در واقع، ارائه پاسخهای قوی نیازمند توضیحات طولانیتری است.
این پژوهش همچنین نشان داد که مدلها وقتی کاربران ادعای خاصی را با اطمینان مطرح میکنند، کمتر به رد ادعاهای جنجالی میپردازند. بهعلاوه، مدلهایی که کاربران میگویند آنها را ترجیح میدهند، همیشه از دقت بالایی برخوردار نیستند.
محققان تصریح کردند: “بهینهسازی برای تجربه کاربری گاهی اوقات ممکن است به هزینه دقت اطلاعات انجام شود.” این مسئله تنشی بین دقت و تطابق با انتظارات کاربران ایجاد میکند، بهویژه زمانی که این انتظارات شامل پیشفرضهای نادرست باشد.