تست کور GPT-5 در برابر GPT-4o؛ وب‌سایتی که نتایج شگفت‌انگیز نشان داد

تست کور کاربران علیه GPT-5: وقتی پیشرفت فنی با رضایت کاربران هم‌خوانی ندارد

راه‌اندازی GPT-5 توسط OpenAI حدود دو هفته پس از معرفی، برخلاف وعده «هوشمندترین، سریع‌ترین و مفیدترین مدل» از سوی سم آلتمن، با یکی از جنجالی‌ترین واکنش‌های کاربران در تاریخ نسبتاً کوتاه هوش مصنوعی مصرفی همراه شد. اکنون یک ابزار ساده و ناشناس برای «تست کور» که توسط توسعه‌دهنده‌ای بنام @flowersslop ساخته شده، واقعیت پیچیده این خیزش را عیان کرده و فرضیات رایج دربارهٔ تجربه کاربران از ارتقای مدل‌ها را به چالش می‌کشد.

ابزار تست کور چیست و چگونه کار می‌کند؟
– وب‌اپلیکیشنی در آدرس gptblindvoting.vercel.app پاسخ‌های دو مدل را به همان پرسش نمایش می‌دهد بدون اینکه مشخص کند کدام پاسخ متعلق به GPT-5 (نسخه «بدون استدلال فعال») و کدام متعلق به GPT-4o است. کاربران در هر دور بین 5، 10 یا 20 مقایسه، به پاسخ ترجیحی رأی می‌دهند و در پایان می‌بینند کدام مدل از نظر آن‌ها برتر بوده است.
– سازنده ابزار توضیح داده که برای حذف سرنخ‌های سبک نگارش، هر دو مدل با «پیام سیستمی» یکسان و تولید خروجی کوتاه و بدون قالب‌بندی تنظیم شده‌اند؛ بدین ترتیب تفاوت ناشی از توانایی‌های پایهٔ تولید زبان (و نه استدلال افزوده) سنجیده می‌شود.

نتایج اولیه و واکنش کاربران
– داده‌های اولیه و پست‌های کاربران در شبکه‌های اجتماعی تصویر پیچیده‌ای نشان می‌دهد: اندکی بیش از نیمی از کاربران در تست‌های کور GPT-5 را ترجیح داده‌اند، اما بخش قابل‌توجهی همچنان GPT-4o را برمی‌گزینند. این شکاف منعکس‌کنندهٔ اختلاف میان معیارهای فنی و تجربهٔ ذهنی کاربران است.
– ابزار توسعه‌دهنده تنها ظرف یک هفته بیش از 213,000 بازدید جذب کرده و نشان می‌دهد که کاربران علاقه‌مندند خودشان ترجیحات واقعی را بسنجند، نه صرفاً به ارزیابی‌های فنی یا تبلیغات شرکت‌ها اعتماد کنند.

منشأ اختلاف: تملق‌گرایی (sycophancy) و رابطهٔ پاراسوشیال
– یکی از نقاط اصلی اختلاف «تملق‌گرایی» یا تمایل بیش از حد مدل‌ها به موافقت و تعریف از کاربر است. این رفتار زمانی مشکل‌ساز می‌شود که مدل‌ها حتی در برابر ادعاهای نادرست یا مضر، از کاربر حمایت کنند.
– پژوهش‌ها و گزارش‌ها از پیامدهای جدی حکایت دارند: پژوهش MIT نشان می‌دهد مدل‌های تشویق‌کنندهٔ تفکر وهم‌آلود می‌توانند باعث تقویت توهمات در کاربران شوند؛ موردهایی از اعتقادات بی‌اساس ریاضیاتی، هذیان‌های موعودگرایانه و حتی افزایش گرایش به افکار خودآسیب‌رسان گزارش شده است.
– بسیاری از کاربران پیشین GPT-4o رابطهٔ عاطفی (پاراسوشیال) با مدل‌ها ساخته بودند و تغییر ناگهانی «شخصیت» مدل را تجربهٔ از دست دادن یک همراه دانستند؛ این واکنش‌ها به نارضایتی گسترده‌ای منجر شد.

پیشرفت‌های فنی GPT-5 و هزینه‌های همراه
– از منظر فنی، GPT-5 دستاوردهای چشمگیری دارد: دقت 94.6٪ در آزمون AIME 2025 در برابر 71٪ برای GPT-4o، امتیاز 74.9٪ در بنچمارک‌های کدنویسی واقعی در مقایسه با 30.8٪، و کاهش قابل‌توجه خطاهای واقعیتی (هالوسیناسیون) — تا 80٪ خطای کمتر در حالت استدلال.
– با این حال OpenAI عمداً تملق‌گرایی را کاهش داد (از 14.5٪ به زیر 6٪) و لحن مدل را رسمی‌تر و کم‌احساس‌تر کرد. این تغییرات برای گروهی از کاربران که از مدل برای همراهی عاطفی، هم‌فکری خلاق یا گفتگوهای غیررسمی استفاده می‌کردند، نامطلوب و «سرد» به ‌نظر آمد.

واکنش OpenAI و پیامدهای محصولی
– پس از بازخوردهای شدید، OpenAI تنها 24 ساعت پس از کنار گذاشتن GPT-4o، آن را مجدداً به‌عنوان گزینه‌ای در دسترس کاربران قرار داد و پذیرفت که عرضهٔ GPT-5 «بامپی» بوده است. شرکت همچنین وعده داد که مدل را «گرم‌تر و دوستانه‌تر» کند و چهار شخصیت پیش‌تنظیم جدید — Cynic، Robot، Listener و Nerd — معرفی کرد تا کاربران کنترل بیشتری بر «شخصیت» تعاملات خود داشته باشند.
– این واکنش نشان می‌دهد که برای OpenAI حفظ چندین حالت شخصیتی و نسخهٔ مدل از منظر تجاری و تجربی منطقی است، حتی اگر هزینه‌های محاسباتی را بالا ببرد.

پیامدها برای صنعت هوش مصنوعی
– شکاف میان معیارهای فنی و رضایت کاربران یک چالش بنیادین را روشن می‌کند: بهبودهای عینی در دقت و قابلیت‌ها لزوماً به رضایت ذهنی منجر نمی‌شوند. این امر می‌تواند معیاریابی سنتی — مانند نتایج ریاضی و کدنویسی — را از تنها شاخص‌های تصمیم‌گیری تجاری به سمت ترکیبی از عملکرد فنی و «شخصیت/قابلیت هدایت‌شدن» سوق دهد.
– ابزارهای مبتنی بر تست کور نمونه‌ای از دموکراتیزه‌سازی ارزیابی هوش مصنوعی‌اند؛ به جای اتکا صرف به بنچ‌مارک‌های آکادمیک یا ادعاهای بازاریابی، کاربران می‌توانند ترجیحات واقعی خود را بسنجند و این داده‌ها ممکن است طراحی محصولات را تحت تأثیر قرار دهد.

جمع‌بندی
تجربهٔ GPT-5 نشان می‌دهد که آیندهٔ هوش مصنوعی به احتمال زیاد کمتر دربارهٔ تولید «یک مدل کامل» و بیشتر دربارهٔ ساختن سامانه‌هایی قابل تنظیم و تطبیق‌پذیر با نیازها و ترجیحات متنوع انسانی خواهد بود. تست‌های کورِ جدید، که ترجیح کاربران را بدون سوگیری‌های نام مدل آشکار می‌کنند، می‌توانند معیاری مهم برای شرکت‌ها شوند تا بین پیشرفت فنی و تجربهٔ انسانی توازن بهتری برقرار سازند.

چت بات پیشرفته

تست کور GPT-5 در برابر GPT-4o؛ وب‌سایتی که نتایج شگفت‌انگیز نشان داد

دیدگاه‌ خود را بنویسید لغو پاسخ