علیبابا از مدل جدید Qwen 3.5 رونمایی کرد؛ مدل اوپنوزنی که نوآوری در عملکرد و هزینه اجرا را برای خریداران شرکتی رقم میزند
علیبابا هفته جاری همزمان با آغاز سال نو قمری از Qwen 3.5 پردهبرداری کرد؛ مدلی که اعداد و ارقام آن به سرعت نگاه مدیران فناوری اطلاعات و خریداران راهکارهای هوش مصنوعی سازمانی را به خود جلب کرده است. پرچمدار جدید با نام کامل Qwen3.5-397B-A17B دارای 397 میلیارد پارامتر کلی است، اما تنها 17 میلیارد پارامتر در هر توکن فعال میشوند؛ رویکردی که امکان بهرهبرداری عملیاتی با هزینه و تأخیر نزدیک به یک مدل 17B متراکم را فراهم میکند، در حالی که از مجموعهای بزرگ از «متخصصان» (experts) برای استدلالهای تخصصی بهره میبرد.
چرا Qwen 3.5 برای سازمانها اهمیت دارد؟
– مالکیت و کنترل: Qwen 3.5 اوپنوزن (open-weight) عرضه شده و تحت مجوز Apache 2.0 قرار دارد؛ یعنی شرکتها میتوانند مدل را در محل خود اجرا، تغییر و توزیع کنند بدون بندهای پیچیده حقوقی یا هزینههای حقامتیاز. این ویژگی، گزینه جذابی در برابر مدلهای مبتنی بر API و سرویس ابری صرف فراهم میآورد.
– صرفهجویی در هزینه و افزایش توان پردازشی: علیبابا ادعا میکند که Qwen 3.5 تا 60٪ ارزانتر از نسل قبلی اجرا میشود و توانایی اداره بارهای همزمان بزرگ را تا 8 برابر افزایش میدهد. بهعلاوه، هزینه اجرایی آن حدود 1/18 از هزینه گزارششده برای Gemini 3 Pro است (طبق ادعاهای شرکت).
– کاهش تأخیر و مقیاسپذیری: با طراحی MoE (Mixture of Experts) نیمهپراکنده و افزایش تعداد متخصصان از 128 به 512 و بهبود مکانیزم attention، Qwen 3.5 در طول پنجرهٔ متنی طولانیتر (تا 256K توکن در نسخه اوپنوزن و تا 1 میلیون توکن در نسخه میزبانیشده Qwen3.5-Plus) عملکرد inference بسیار سریعتری دارد؛ علیبابا اعلام کرده در طول 256K کانتکست، این مدل 19 برابر سریعتر از Qwen3-Max و 7.2 برابر سریعتر از مدل 235B-A22B نسخه قبلی است.
نوآوریهای معماری و تأثیر عملیاتی
– فعالسازی جزئی پارامترها: تنها 17 میلیارد پارامتر در هر عبور رو به جلو فعال میشوند؛ این یعنی ردپای محاسباتی نزدیک به مدلهای کوچکتر با توان استدلالی گستردهتر بهواسطه دسترسی به کل استخر متخصصان.
– پیشبینی چندتاکنی (multi-token prediction): این تکنیک که در برخی مدلهای اختصاصی به کار رفته، هم همگرایی در مرحله پیشآموزش را سرعت میبخشد و هم توان پردازشی را افزایش میدهد.
– مکانیزم attention کمفشار برای کانتکست طولانی: بهبود حافظه و کاهش فشار در پردازش پنجرههای بسیار طولانی یکی از نقاط قوّت فنی است که امکان کارکرد تا 1 میلیون توکن در نسخه میزبانیشده را میدهد.
– آموزش همزمان متن، تصویر و ویدیو: برخلاف رویکردهای معمول که از یک مدل زبانی پایه استفاده و سپس یک «اینکودر بینایی» به آن متصل میکنند، Qwen 3.5 از ابتدا با دادههای متنی، تصویری و ویدیویی آموزش دیده است. این «مولتیمودالی بومی» در وظایف نیازمند تفسیر همزمان متن و تصویر (مثلاً تحلیل نمودارهای فنی، پردازش اسکرینشاتهای UI یا استخراج داده ساختاریافته از چیدمانهای پیچیده بصری) عملکرد بهتری نسبت به مدلهایی دارد که دید را بهصورت الحاقی افزودهاند.
عملکرد بنچمارک و پوشش زبانی
در برخی ارزیابیهای منتشرشده توسط علیبابا، Qwen3.5-397B-A17B در تستهای استدلال و کدنویسی از Qwen3-Max (با بیش از تریلیون پارامتر) پیشی گرفته است. نمرهها در معیارهایی مانند MathVista (90.3) و MMMU (85.0) رقابتی گزارش شدهاند؛ اگرچه در برخی بنچمارکهای تخصصی بینایی ممکن است از رقبایی مانند Gemini 3 عقب بماند، اما در تسکهای چندرسانهای (multimodal) نسبت به Claude Opus 4.5 برتری نشان داده و در برابر GPT-5.2 نیز اعداد رقابتی دارد — همه اینها با شمار پارامتر کمتر.
گسترش پوشش زبانی و کارایی توکنیزه شدن
دایرهٔ واژگان مدل به 250k توکن افزایش یافته (از 150k در نسلهای قبلی) که تقریباً معادل توکنایزر ~256K گوگل است. پشتیبانی زبانی از 119 زبان در Qwen 3 به 201 زبان و گویش رسیده است. این بهروزرسانی توکنایزر برای اسکریپتهای غیرلاتین (عربی، تایلندی، کرهای، ژاپنی، هندی و غیره) کارایی بالاتری به همراه دارد و میتواند شمار توکنها را 15–40٪ کاهش دهد؛ موضوعی که در پیادهسازیهای چندزبانه به صرفهجویی هزینه و بهبود زمان پاسخگویی منجر میشود.
قابلیتهای عاملمحور (agentic) و ابزارها
علیبابا Qwen Code را متنباز کرده است؛ یک رابط خطدستوری که به توسعهدهندگان اجازه میدهد وظایف پیچیده برنامهنویسی را با زبان طبیعی به مدل محول کنند. مدل با فریمورکهای عاملباز (مثل OpenClaw) سازگار است و برای تقویت قابلیت اجرای وظایف، از یادگیری تقویتی در 15,000 محیط آموزشی مجزا بهره برده است. نسخه میزبانیشده Qwen3.5-Plus حالتهای استنتاج تطبیقی ارائه میدهد: حالت سریع برای تاخیر حساس، حالت تفکری برای زنجیرهٔ استدلال طولانی و حالت خودکار که بین آنها جابجا میشود — انعطافپذیری حیاتی برای سازمانهایی که همزمان نیاز به پاسخهای بلادرنگ و تحلیلهای عمیق دارند.
نیازهای سختافزاری و دسترسی
اجرای اوپنوزن Qwen 3.5 درون سازمانی نیازمند سختافزار قدرتمند است؛ نسخه کوانتیزه شده به حدود 256 گیگابایت حافظه رم نیاز دارد و برای فضای عملیاتی مناسب، 512 گیگابایت توصیه میشود. بنابراین این مدل برای ایستگاه کاری ساده یا سرور کوچک مناسب نیست، اما برای گرههای GPU که بسیاری از سازمانها برای بارهای استنتاجی دارند، گزینهای قابلبررسی و جایگزین مناسب APIهای مبتنی بر ابر محسوب میشود.
دسترسی و وضعیت نشر
تمام مدلهای اوپنوزن Qwen 3.5 تحت مجوز Apache 2.0 منتشر شدهاند. نسخه Qwen3.5-397B-A17B هماکنون در Hugging Face با شناسه Qwen/Qwen3.5-397B-A17B قابل دسترسی است. نسخه میزبانیشده Qwen3.5-Plus از طریق Alibaba Cloud Model Studio ارائه میشود و برای ارزیابی عمومی، Qwen Chat در chat.qwen.ai دسترسی رایگان فراهم کرده است.
پیام برای تصمیمگیران IT
Qwen 3.5 نشان میدهد که مدلهای اوپنوزن مرزی میتوانند اکنون با مدلهای اجارهای و بزرگ رقابت کنند و این موضوع تصمیمگیری در خرید و زیرساختهای AI برای سالهای آینده را متحول میکند. سؤال بعدی برای سازمانها این است که آیا زیرساخت، تیم فنی و گزینههای استراتژیک آنها آماده بهرهبرداری از چنین مدلی هستند یا خیر.
