نکات کلیدی درباره مدلهای هوش مصنوعی با قابلیت استدلال: هزینهها و چالشهای ارزیابی
مدتهاست که آزمایشگاههای هوش مصنوعی، از جمله OpenAI، ادعا میکنند که مدلهای هوش مصنوعی با قابلیت “استدلال” در حل مسائل، میتوانند نسبت به مدلهای بدون استدلال، عملکرد بهتری در حوزههای خاصی مانند فیزیک داشته باشند. اما در حالی که به نظر میرسد این ادعا معتبر باشد، ارزیابی مدلهای استدلالی به هزینههای بالایی نیاز دارد که این مسأله تأیید مستقل این ادعاها را دشوار میسازد.
بر اساس دادههای منتشرشده توسط Artificial Analysis، هزینه ارزیابی مدل استدلالی OpenAI (مدل او1) بر روی مجموعهای از هفت معیار مشهور هوش مصنوعی، حدود ۲,۷۶۷.۰۵ دلار است. این معیارها شامل MMLU-Pro، GPQA Diamond، Humanity’s Last Exam، LiveCodeBench، SciCode، AIME 2024 و MATH-500 میشوند. به طور مشابه، هزینه ارزیابی مدل ترکیبی Claude 3.7 Sonnet از Anthropic بر روی همین مجموعه حدود ۱,۴۸۵.۳۵ دلار و هزینه ارزیابی مدل کمهزینه OpenAI (مدل او۳-مینی) نیز ۳۴۴.۵۹ دلار برآورده شده است.
به طور کلی، هزینههای ارزیابی این مدلهای استدلالی غالباً بیشتر از مدلهای دیگر است. به عنوان مثال، Artificial Analysis مبلغ ۱۴۱.۲۲ دلار صرف ارزیابی مدل او۱-مینی OpenAI کرده است. کل هزینههای صرفشده توسط این شرکت برای ارزیابی حدود دوازده مدل استدلالی به تقریباً ۵,۲۰۰ دلار میرسد، که نزدیک به دو برابر هزینهای است که برای تحلیل بیش از ۸۰ مدل بدون استدلال (۲,۴۰۰ دلار) صرف شده است.
جورج کیمرون، یکی از بنیانگذاران Artificial Analysis، در گفتگو با TechCrunch اعلام کرد که این سازمان قصد دارد هزینههای ارزیابی خود را با توسعه مدلهای استدلالی بیشتر افزایش دهد. او گفت: “ما ماهانه صدها ارزیابی انجام میدهیم و به یک بودجه قابل توجه برای این کار اختصاص میدهیم. قرار است با ظهور مدلهای جدید، این هزینهها افزایش یابد.”
حتی دیگر سازمانهای مشابه نیز با مدلهای بالا در هزینه ارزیابی مواجه هستند. راس تیلور، مدیرعامل استارتاپ General Reasoning، گفت که اخیراً ۵۸۰ دلار برای ارزیابی Claude 3.7 Sonnet در حدود ۳,۷۰۰ prompt منحصر به فرد هزینه کرده است. او تخمین میزند که یک اجرای کامل MMLU Pro که برای ارزیابی توانایی درک زبان طراحی شده، بیش از ۱,۸۰۰ دلار هزینه داشته باشد.
چرا هزینههای ارزیابی مدلهای استدلالی اینقدر بالاست؟ این معضل عمدتاً به دلیل تولید بالای توکنها توسط این مدلها است. توکنها نمایانگر بخشهای متنی خام هستند و هزینههای استفاده از مدلها بر اساس توکنها محاسبه میشود. بر اساس دادههای Artificial Analysis، مدل او۱ OpenAI در طول ارزیابیهای انجامشده بیش از ۴۴ میلیون توکن تولید کرده است، که این میزان حدود هشت برابر بیشتر از توکنهای تولیدشده توسط GPT-4o است.
در نهایت، بسیاری از آزمایشگاههای هوش مصنوعی، از جمله OpenAI، به سازمانهای ارزیابی دسترسی رایگان یا یارانهای به مدلهای خود برای آزمون میدهند. با این حال، این موضوع ممکن است به کیفیت نتایج آسیب وارد کند و برخی کارشناسان بر این باورند که حتی اگر شواهدی از دستکاری وجود نداشته باشد، فقط شائبه دخالت آزمایشگاههای هوش مصنوعی ممکن است به اعتبار نتایج آسیب بزند.
این مسائل همگی به چالشهای موجود در زمینه ارزیابی مدلهای هوش مصنوعی با قابلیت استدلال اشاره دارند و روشن میسازند که برای دستیابی به نتایج معتبر در این حوزه، نیازمند تغییرات و بهبودهایی در فرآیند ارزیابی هستیم.