یک مطالعهٔ تازه نشان میدهد مدلهای هوش مصنوعی متنباز بهطور قابلتوجهی توکن بیشتری مصرف میکنند — اثر مهم بر هزینه و استراتژیهای استقرار در سازمانها
یک مطالعهٔ جامع از شرکت تحقیقاتی Nous Research نشان میدهد که مدلهای هوش مصنوعی متنباز (open-weight/open-source) در اجرای وظایف یکسان بین 1.5 تا 4 برابر و در برخی پرسشهای ساده دانش تا 10 برابر توکن بیشتری نسبت به مدلهای بسته (مانند مدلهای تجاری OpenAI و Anthropic) مصرف میکنند. این یافتهها این تصور رایج را که مدلهای متنباز همیشه از نظر اقتصادی برتر هستند به چالش میکشند و پیامدهای مستقیمی برای تصمیمگیری سازمانها دربارهٔ انتخاب و بهینهسازی مدلهای AI دارند.
چه چیزی اندازهگیری شد؟ روششناسی و مجموعه آزمایشها
– دامنه تحقیق: پژوهش 19 مدل مختلف را بررسی کرد و سه دستهٔ مأموریت را مورد سنجش قرار داد: سوالات پایهٔ دانشی، مسائل ریاضی و معماهای منطقی.
– معیار مرکزی: «کارایی توکنی» (token efficiency) — تعداد توکنهای مصرفشده نسبت به پیچیدگی پاسخ — بهعنوان معیار اصلی ارزیابی شد.
– چالشهای اندازهگیری: بهدلیل عدم دسترسی به ریزفرآیندهای تفکر در مدلهای بسته، تیم تحقیق از «توکنهای تکمیل» (completion tokens) بهعنوان نمایندهٔ میزان تلاش محاسباتی استفاده کرد و برای جلوگیری از نتایج مبتنی بر حافظهٔ مدلها، نمونههای مسئلهها (از جمله مسائل مسابقات ریاضی مانند AIME) را با تغییر متغیرها اصلاح کرد.
یافتههای کلیدی
– اختلاف مصرف توکن: مدلهای متنباز بهطور میانگین 1.5–4 برابر توکن بیشتری مصرف کردند؛ در برخی سوالات سادهٔ دانشی اختلاف تا 10 برابر رسید.
– مدلهای استدلالی بزرگ (LRM): این مدلها که از زنجیرهٔ تفکر (chain-of-thought) طولانی برای حل مسئله استفاده میکنند، در مواردی صدها تا هزاران توکن برای پاسخ به سوالات ساده مصرف کردند.
– برتری مدلهای بسته در بهرهوری: برخی مدلهای OpenAI در مسائل ریاضی تا 3 برابر توکن کمتری مصرف کردند و بهطور کلی در کارایی توکنی برجسته بودند.
– عملکرد مدلهای متنباز: در بین مدلهای متنباز، نسخهٔ llama-3.3-nemotron-super-49b-v1 (NVIDIA) بهعنوان بهینهترین مدل متنباز گزارش شد، درحالیکه برخی مدلهای جدید مثل مواردی از Mistral مصرف توکن بسیار بالاتری داشتند.
پیامدها برای کسبوکارها و تیمهای فنی
– هزینهٔ واقعی استنتاج: سازمانها اغلب تنها به قیمت هر توکن یا معیارهای دقت نگاه میکنند؛ اما مصرف کل توکن برای هر پرسش میتواند صرفهٔ ظاهری قیمت پایینتر مدلهای متنباز را کاملاً خنثی کند.
– بهینهسازی و انتخاب مدل: ارائهدهندگان مدلهای بسته ظاهراً با هدف کاهش هزینهٔ استنتاج مدلها را برای مصرف توکن کمتر بهینه کردهاند؛ از طرف دیگر نسخههای جدید متنباز ممکن است تمرکز بیشتری بر توانمندیهای استدلالی داشته باشند تا صرفهجویی توکنی.
– توصیههای عملی: سازمانها باید کارایی توکنی را بهعنوان معیار نخست در ارزیابی مدلها لحاظ کنند، آزمایشهای واقعی و بارکاری (real-world workloads) را اجرا کنند، و به دنبال مدلهایی با CoT فشرده (densified Chain-of-Thought) یا راهکارهای تراکم برای کاهش مصرف زمینه و حفظ دقت باشند.
دسترسی به دادهها و گام بعدی پژوهش
تیم پژوهشی مجموعهدادهٔ کامل و کد ارزیابی را در گیتهاب منتشر کرده است تا پژوهشگران دیگر بتوانند نتایج را بازتولید و توسعه دهند. پژوهشگران پیشنهاد میکنند که «کارایی توکنی» بهعنوان یک هدف بهینهسازی همردیف با دقت در توسعهٔ مدلهای آینده قرار گیرد.
نتیجهگیری
با افزایش اهمیت هزینههای استنتاج در پیادهسازیهای سازمانی، رقابت واقعی میان مدلها ممکن است به جای «هوشمندترین» بودن، بر «کارآمدترین در مصرف توکن» بودن متمرکز شود. برای تصمیمگیرندگان فناوری، سنجش دقیق مصرف توکن و محاسبهٔ هزینهٔ کلی استنتاج بهجای اتکا صرف به قیمت هر توکن یا معیارهای دقت، ضروری است.
