مدل متن‌باز «ارزان» واقعاً بودجه محاسباتی شما را می‌سوزاند

یک مطالعهٔ تازه نشان می‌دهد مدل‌های هوش مصنوعی متن‌باز به‌طور قابل‌توجهی توکن بیشتری مصرف می‌کنند — اثر مهم بر هزینه و استراتژی‌های استقرار در سازمان‌ها

یک مطالعهٔ جامع از شرکت تحقیقاتی Nous Research نشان می‌دهد که مدل‌های هوش مصنوعی متن‌باز (open-weight/open-source) در اجرای وظایف یکسان بین 1.5 تا 4 برابر و در برخی پرسش‌های ساده دانش تا 10 برابر توکن بیشتری نسبت به مدل‌های بسته (مانند مدل‌های تجاری OpenAI و Anthropic) مصرف می‌کنند. این یافته‌ها این تصور رایج را که مدل‌های متن‌باز همیشه از نظر اقتصادی برتر هستند به چالش می‌کشند و پیامدهای مستقیمی برای تصمیم‌گیری سازمان‌ها دربارهٔ انتخاب و بهینه‌سازی مدل‌های AI دارند.

چه چیزی اندازه‌گیری شد؟ روش‌شناسی و مجموعه آزمایش‌ها
– دامنه تحقیق: پژوهش 19 مدل مختلف را بررسی کرد و سه دستهٔ مأموریت را مورد سنجش قرار داد: سوالات پایهٔ دانشی، مسائل ریاضی و معماهای منطقی.
– معیار مرکزی: «کارایی توکنی» (token efficiency) — تعداد توکن‌های مصرف‌شده نسبت به پیچیدگی پاسخ — به‌عنوان معیار اصلی ارزیابی شد.
– چالش‌های اندازه‌گیری: به‌دلیل عدم دسترسی به ریزفرآیندهای تفکر در مدل‌های بسته، تیم تحقیق از «توکن‌های تکمیل» (completion tokens) به‌عنوان نمایندهٔ میزان تلاش محاسباتی استفاده کرد و برای جلوگیری از نتایج مبتنی بر حافظهٔ مدل‌ها، نمونه‌های مسئله‌ها (از جمله مسائل مسابقات ریاضی مانند AIME) را با تغییر متغیرها اصلاح کرد.

یافته‌های کلیدی
– اختلاف مصرف توکن: مدل‌های متن‌باز به‌طور میانگین 1.5–4 برابر توکن بیشتری مصرف کردند؛ در برخی سوالات سادهٔ دانشی اختلاف تا 10 برابر رسید.
– مدل‌های استدلالی بزرگ (LRM): این مدل‌ها که از زنجیرهٔ تفکر (chain-of-thought) طولانی برای حل مسئله استفاده می‌کنند، در مواردی صدها تا هزاران توکن برای پاسخ به سوالات ساده مصرف کردند.
– برتری مدل‌های بسته در بهره‌وری: برخی مدل‌های OpenAI در مسائل ریاضی تا 3 برابر توکن کمتری مصرف کردند و به‌طور کلی در کارایی توکنی برجسته بودند.
– عملکرد مدل‌های متن‌باز: در بین مدل‌های متن‌باز، نسخهٔ llama-3.3-nemotron-super-49b-v1 (NVIDIA) به‌عنوان بهینه‌ترین مدل متن‌باز گزارش شد، درحالی‌که برخی مدل‌های جدید مثل مواردی از Mistral مصرف توکن بسیار بالاتری داشتند.

پیامدها برای کسب‌وکارها و تیم‌های فنی
– هزینهٔ واقعی استنتاج: سازمان‌ها اغلب تنها به قیمت هر توکن یا معیارهای دقت نگاه می‌کنند؛ اما مصرف کل توکن برای هر پرسش می‌تواند صرفهٔ ظاهری قیمت پایین‌تر مدل‌های متن‌باز را کاملاً خنثی کند.
– بهینه‌سازی و انتخاب مدل: ارائه‌دهندگان مدل‌های بسته ظاهراً با هدف کاهش هزینهٔ استنتاج مدل‌ها را برای مصرف توکن کمتر بهینه کرده‌اند؛ از طرف دیگر نسخه‌های جدید متن‌باز ممکن است تمرکز بیشتری بر توانمندی‌های استدلالی داشته باشند تا صرفه‌جویی توکنی.
– توصیه‌های عملی: سازمان‌ها باید کارایی توکنی را به‌عنوان معیار نخست در ارزیابی مدل‌ها لحاظ کنند، آزمایش‌های واقعی و بارکاری (real-world workloads) را اجرا کنند، و به دنبال مدل‌هایی با CoT فشرده (densified Chain-of-Thought) یا راهکارهای تراکم برای کاهش مصرف زمینه و حفظ دقت باشند.

دسترسی به داده‌ها و گام بعدی پژوهش
تیم پژوهشی مجموعه‌دادهٔ کامل و کد ارزیابی را در گیت‌هاب منتشر کرده است تا پژوهشگران دیگر بتوانند نتایج را بازتولید و توسعه دهند. پژوهشگران پیشنهاد می‌کنند که «کارایی توکنی» به‌عنوان یک هدف بهینه‌سازی هم‌ردیف با دقت در توسعهٔ مدل‌های آینده قرار گیرد.

نتیجه‌گیری
با افزایش اهمیت هزینه‌های استنتاج در پیاده‌سازی‌های سازمانی، رقابت واقعی میان مدل‌ها ممکن است به جای «هوشمندترین» بودن، بر «کارآمدترین در مصرف توکن» بودن متمرکز شود. برای تصمیم‌گیرندگان فناوری، سنجش دقیق مصرف توکن و محاسبهٔ هزینهٔ کلی استنتاج به‌جای اتکا صرف به قیمت هر توکن یا معیارهای دقت، ضروری است.

مشاور صوتی آنلاین

مدل متن‌باز «ارزان» واقعاً بودجه محاسباتی شما را می‌سوزاند

دیدگاه‌ خود را بنویسید لغو پاسخ