Qwen 3.5 397B-A17 علی‌بابا؛ عملکرد بهتر از مدل تریلیون‌پارامتری با هزینه‌ای بسیار کمتر

علی‌بابا از مدل جدید Qwen 3.5 رونمایی کرد؛ مدل اوپن‌وزنی که نوآوری در عملکرد و هزینه‌ اجرا را برای خریداران شرکتی رقم می‌زند

علی‌بابا هفته جاری هم‌زمان با آغاز سال نو قمری از Qwen 3.5 پرده‌برداری کرد؛ مدلی که اعداد و ارقام آن به سرعت نگاه مدیران فناوری اطلاعات و خریداران راهکارهای هوش مصنوعی سازمانی را به خود جلب کرده است. پرچمدار جدید با نام کامل Qwen3.5-397B-A17B دارای 397 میلیارد پارامتر کلی است، اما تنها 17 میلیارد پارامتر در هر توکن فعال می‌شوند؛ رویکردی که امکان بهره‌برداری عملیاتی با هزینه و تأخیر نزدیک به یک مدل 17B متراکم را فراهم می‌کند، در حالی که از مجموعه‌ای بزرگ از «متخصصان» (experts) برای استدلال‌های تخصصی بهره می‌برد.

چرا Qwen 3.5 برای سازمان‌ها اهمیت دارد؟
– مالکیت و کنترل: Qwen 3.5 اوپن‌وزن (open-weight) عرضه شده و تحت مجوز Apache 2.0 قرار دارد؛ یعنی شرکت‌ها می‌توانند مدل را در محل خود اجرا، تغییر و توزیع کنند بدون بندهای پیچیده حقوقی یا هزینه‌های حق‌امتیاز. این ویژگی، گزینه جذابی در برابر مدل‌های مبتنی بر API و سرویس ابری صرف فراهم می‌آورد.
– صرفه‌جویی در هزینه و افزایش توان پردازشی: علی‌بابا ادعا می‌کند که Qwen 3.5 تا 60٪ ارزان‌تر از نسل قبلی اجرا می‌شود و توانایی اداره بارهای هم‌زمان بزرگ را تا 8 برابر افزایش می‌دهد. به‌علاوه، هزینه اجرایی آن حدود 1/18 از هزینه گزارش‌شده برای Gemini 3 Pro است (طبق ادعاهای شرکت).
– کاهش تأخیر و مقیاس‌پذیری: با طراحی MoE (Mixture of Experts) نیمه‌پراکنده و افزایش تعداد متخصصان از 128 به 512 و بهبود مکانیزم attention، Qwen 3.5 در طول پنجرهٔ متنی طولانی‌تر (تا 256K توکن در نسخه اوپن‌وزن و تا 1 میلیون توکن در نسخه میزبانی‌شده Qwen3.5-Plus) عملکرد inference بسیار سریع‌تری دارد؛ علی‌بابا اعلام کرده در طول 256K کانتکست، این مدل 19 برابر سریع‌تر از Qwen3-Max و 7.2 برابر سریع‌تر از مدل 235B-A22B نسخه قبلی است.

نوآوری‌های معماری و تأثیر عملیاتی
– فعال‌سازی جزئی پارامترها: تنها 17 میلیارد پارامتر در هر عبور رو به جلو فعال می‌شوند؛ این یعنی ردپای محاسباتی نزدیک به مدل‌های کوچک‌تر با توان استدلالی گسترده‌تر به‌واسطه دسترسی به کل استخر متخصصان.
– پیش‌بینی چندتاکنی (multi-token prediction): این تکنیک که در برخی مدل‌های اختصاصی به کار رفته، هم همگرایی در مرحله پیش‌آموزش را سرعت می‌بخشد و هم توان پردازشی را افزایش می‌دهد.
– مکانیزم attention کم‌فشار برای کانتکست طولانی: بهبود حافظه و کاهش فشار در پردازش پنجره‌های بسیار طولانی یکی از نقاط قوّت فنی است که امکان کارکرد تا 1 میلیون توکن در نسخه میزبانی‌شده را می‌دهد.
– آموزش هم‌زمان متن، تصویر و ویدیو: برخلاف رویکردهای معمول که از یک مدل زبانی پایه استفاده و سپس یک «اینکودر بینایی» به آن متصل می‌کنند، Qwen 3.5 از ابتدا با داده‌های متنی، تصویری و ویدیویی آموزش دیده است. این «مولتی‌مودالی بومی» در وظایف نیازمند تفسیر هم‌زمان متن و تصویر (مثلاً تحلیل نمودارهای فنی، پردازش اسکرین‌شات‌های UI یا استخراج داده ساختاریافته از چیدمان‌های پیچیده بصری) عملکرد بهتری نسبت به مدل‌هایی دارد که دید را به‌صورت الحاقی افزوده‌اند.

عملکرد بنچمارک و پوشش زبانی
در برخی ارزیابی‌های منتشرشده توسط علی‌بابا، Qwen3.5-397B-A17B در تست‌های استدلال و کدنویسی از Qwen3-Max (با بیش از تریلیون پارامتر) پیشی گرفته است. نمره‌ها در معیارهایی مانند MathVista (90.3) و MMMU (85.0) رقابتی گزارش شده‌اند؛ اگرچه در برخی بنچمارک‌های تخصصی بینایی ممکن است از رقبایی مانند Gemini 3 عقب بماند، اما در تسک‌های چندرسانه‌ای (multimodal) نسبت به Claude Opus 4.5 برتری نشان داده و در برابر GPT-5.2 نیز اعداد رقابتی دارد — همه این‌ها با شمار پارامتر کمتر.

گسترش پوشش زبانی و کارایی توکنیزه شدن
دایرهٔ واژگان مدل به 250k توکن افزایش یافته (از 150k در نسل‌های قبلی) که تقریباً معادل توکنایزر ~256K گوگل است. پشتیبانی زبانی از 119 زبان در Qwen 3 به 201 زبان و گویش رسیده است. این به‌روزرسانی توکنایزر برای اسکریپت‌های غیرلاتین (عربی، تایلندی، کره‌ای، ژاپنی، هندی و غیره) کارایی بالاتری به همراه دارد و می‌تواند شمار توکن‌ها را 15–40٪ کاهش دهد؛ موضوعی که در پیاده‌سازی‌های چندزبانه به صرفه‌جویی هزینه و بهبود زمان پاسخ‌گویی منجر می‌شود.

قابلیت‌های عامل‌محور (agentic) و ابزارها
علی‌بابا Qwen Code را متن‌باز کرده است؛ یک رابط خط‌دستوری که به توسعه‌دهندگان اجازه می‌دهد وظایف پیچیده برنامه‌نویسی را با زبان طبیعی به مدل محول کنند. مدل با فریم‌ورک‌های عامل‌باز (مثل OpenClaw) سازگار است و برای تقویت قابلیت اجرای وظایف، از یادگیری تقویتی در 15,000 محیط آموزشی مجزا بهره برده است. نسخه میزبانی‌شده Qwen3.5-Plus حالت‌های استنتاج تطبیقی ارائه می‌دهد: حالت سریع برای تاخیر حساس، حالت تفکری برای زنجیرهٔ استدلال طولانی و حالت خودکار که بین آن‌ها جابجا می‌شود — انعطاف‌پذیری حیاتی برای سازمان‌هایی که هم‌زمان نیاز به پاسخ‌های بلادرنگ و تحلیل‌های عمیق دارند.

نیازهای سخت‌افزاری و دسترسی
اجرای اوپن‌وزن Qwen 3.5 درون سازمانی نیازمند سخت‌افزار قدرتمند است؛ نسخه کوانتیزه شده به حدود 256 گیگابایت حافظه رم نیاز دارد و برای فضای عملیاتی مناسب، 512 گیگابایت توصیه می‌شود. بنابراین این مدل برای ایستگاه کاری ساده یا سرور کوچک مناسب نیست، اما برای گره‌های GPU که بسیاری از سازمان‌ها برای بارهای استنتاجی دارند، گزینه‌ای قابل‌بررسی و جایگزین مناسب APIهای مبتنی بر ابر محسوب می‌شود.

دسترسی و وضعیت نشر
تمام مدل‌های اوپن‌وزن Qwen 3.5 تحت مجوز Apache 2.0 منتشر شده‌اند. نسخه Qwen3.5-397B-A17B هم‌اکنون در Hugging Face با شناسه Qwen/Qwen3.5-397B-A17B قابل دسترسی است. نسخه میزبانی‌شده Qwen3.5-Plus از طریق Alibaba Cloud Model Studio ارائه می‌شود و برای ارزیابی عمومی، Qwen Chat در chat.qwen.ai دسترسی رایگان فراهم کرده است.

پیام برای تصمیم‌گیران IT
Qwen 3.5 نشان می‌دهد که مدل‌های اوپن‌وزن مرزی می‌توانند اکنون با مدل‌های اجاره‌ای و بزرگ رقابت کنند و این موضوع تصمیم‌گیری در خرید و زیرساخت‌های AI برای سال‌های آینده را متحول می‌کند. سؤال بعدی برای سازمان‌ها این است که آیا زیرساخت، تیم فنی و گزینه‌های استراتژیک آن‌ها آماده بهره‌برداری از چنین مدلی هستند یا خیر.

راهنمای هوش مصنوعی

Qwen 3.5 397B-A17 علی‌بابا؛ عملکرد بهتر از مدل تریلیون‌پارامتری با هزینه‌ای بسیار کمتر

دیدگاه‌ خود را بنویسید لغو پاسخ