نکات کلیدی درباره مدل‌های هوش مصنوعی با قابلیت استدلال: هزینه‌ها و چالش‌های ارزیابی

مدت‌هاست که آزمایشگاه‌های هوش مصنوعی، از جمله OpenAI، ادعا می‌کنند که مدل‌های هوش مصنوعی با قابلیت “استدلال” در حل مسائل، می‌توانند نسبت به مدل‌های بدون استدلال، عملکرد بهتری در حوزه‌های خاصی مانند فیزیک داشته باشند. اما در حالی که به نظر می‌رسد این ادعا معتبر باشد، ارزیابی مدل‌های استدلالی به هزینه‌های بالایی نیاز دارد که این مسأله تأیید مستقل این ادعاها را دشوار می‌سازد.

بر اساس داده‌های منتشرشده توسط Artificial Analysis، هزینه ارزیابی مدل استدلالی OpenAI (مدل او1) بر روی مجموعه‌ای از هفت معیار مشهور هوش مصنوعی، حدود ۲,۷۶۷.۰۵ دلار است. این معیارها شامل MMLU-Pro، GPQA Diamond، Humanity’s Last Exam، LiveCodeBench، SciCode، AIME 2024 و MATH-500 می‌شوند. به طور مشابه، هزینه ارزیابی مدل ترکیبی Claude 3.7 Sonnet از Anthropic بر روی همین مجموعه حدود ۱,۴۸۵.۳۵ دلار و هزینه ارزیابی مدل کم‌هزینه OpenAI (مدل او۳-مینی) نیز ۳۴۴.۵۹ دلار برآورده شده است.

به طور کلی، هزینه‌های ارزیابی این مدل‌های استدلالی غالباً بیشتر از مدل‌های دیگر است. به عنوان مثال، Artificial Analysis مبلغ ۱۴۱.۲۲ دلار صرف ارزیابی مدل او۱-مینی OpenAI کرده است. کل هزینه‌های صرف‌شده توسط این شرکت برای ارزیابی حدود دوازده مدل استدلالی به تقریباً ۵,۲۰۰ دلار می‌رسد، که نزدیک به دو برابر هزینه‌ای است که برای تحلیل بیش از ۸۰ مدل بدون استدلال (۲,۴۰۰ دلار) صرف شده است.

جورج کیمرون، یکی از بنیان‌گذاران Artificial Analysis، در گفتگو با TechCrunch اعلام کرد که این سازمان قصد دارد هزینه‌های ارزیابی خود را با توسعه مدل‌های استدلالی بیشتر افزایش دهد. او گفت: “ما ماهانه صدها ارزیابی انجام می‌دهیم و به یک بودجه قابل توجه برای این کار اختصاص می‌دهیم. قرار است با ظهور مدل‌های جدید، این هزینه‌ها افزایش یابد.”

حتی دیگر سازمان‌های مشابه نیز با مدل‌های بالا در هزینه ارزیابی مواجه هستند. راس تیلور، مدیرعامل استارتاپ General Reasoning، گفت که اخیراً ۵۸۰ دلار برای ارزیابی Claude 3.7 Sonnet در حدود ۳,۷۰۰ prompt منحصر به فرد هزینه کرده است. او تخمین می‌زند که یک اجرای کامل MMLU Pro که برای ارزیابی توانایی درک زبان طراحی شده، بیش از ۱,۸۰۰ دلار هزینه داشته باشد.

چرا هزینه‌های ارزیابی مدل‌های استدلالی این‌قدر بالاست؟ این معضل عمدتاً به دلیل تولید بالای توکن‌ها توسط این مدل‌ها است. توکن‌ها نمایانگر بخش‌های متنی خام هستند و هزینه‌های استفاده از مدل‌ها بر اساس توکن‌ها محاسبه می‌شود. بر اساس داده‌های Artificial Analysis، مدل او۱ OpenAI در طول ارزیابی‌های انجام‌شده بیش از ۴۴ میلیون توکن تولید کرده است، که این میزان حدود هشت برابر بیشتر از توکن‌های تولیدشده توسط GPT-4o است.

در نهایت، بسیاری از آزمایشگاه‌های هوش مصنوعی، از جمله OpenAI، به سازمان‌های ارزیابی دسترسی رایگان یا یارانه‌ای به مدل‌های خود برای آزمون می‌دهند. با این حال، این موضوع ممکن است به کیفیت نتایج آسیب وارد کند و برخی کارشناسان بر این باورند که حتی اگر شواهدی از دستکاری وجود نداشته باشد، فقط شائبه دخالت آزمایشگاه‌های هوش مصنوعی ممکن است به اعتبار نتایج آسیب بزند.

این مسائل همگی به چالش‌های موجود در زمینه ارزیابی مدل‌های هوش مصنوعی با قابلیت استدلال اشاره دارند و روشن می‌سازند که برای دستیابی به نتایج معتبر در این حوزه، نیازمند تغییرات و بهبودهایی در فرآیند ارزیابی هستیم.

چت آنلاین با هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا