علیبابا تیم توسعه Qwen را بار دیگر با معرفی سری «Qwen 3.5 Medium» غافلگیر کرد؛ مجموعهای از چهار مدل بزرگ زبانی (LLM) که سه مدل از آنها تحت مجوز آزاد Apache 2.0 برای استفاده تجاری و دانلود در دسترس قرار گرفتهاند و یک مدل اختصاصی بهصورت سرویس ابری ارائه میشود. این خبر برای توسعهدهندگان، پژوهشگران و شرکتهایی که به دنبال مدلهای کارا، کمهزینه و قابل استقرار محلی هستند، اهمیت زیادی دارد.
چه چیزهایی منتشر شده؟
– مدلهای متنباز: Qwen3.5-35B-A3B، Qwen3.5-122B-A10B و Qwen3.5-27B — قابل دانلود از Hugging Face و ModelScope زیر مجوز Apache 2.0.
– مدل اختصاصی: Qwen3.5-Flash — نسخهٔ میزبانیشده از طریق Alibaba Cloud Model Studio API که امکانات رسمی و قیمت رقابتی ارائه میدهد.
ویژگیهای فنی کلیدی
– معماری هیبریدی: Qwen 3.5 ترکیبی از Gated Delta Networks و لایهٔ sparse Mixture-of-Experts (MoE) است که به کارایی و بهرهوری محاسباتی بالا کمک میکند.
– فعالسازی پویا پارامترها: در مدل 35B مجموعاً 35 میلیارد پارامتر وجود دارد اما برای هر توکن تنها حدود 3 میلیارد پارامتر فعال میشوند؛ این رویکرد سبب کاهش زمان استنتاج و مصرف حافظه میشود.
– تنوع کارشناسان (MoE): لایهٔ MoE از 256 «کارشناس» تشکیل شده که با مسیریابیِ محدود (برای مثال 8 کارشناس مسیریابیشده و یک کارشناس مشترک) عملکرد را حفظ کرده و تأخیر را کاهش میدهد.
– کوآنتایزاسیون 4 بیتی و KV-cache: تیم Qwen ادعا میکند دقت مدلها حتی پس از فشردهسازی به 4 بیت و کوآنتایزاسیون کش کلید–مقدار تقریباً بدون افت باقی میماند؛ این موضوع امکان اجرای مدلهای با پنجرهٔ زمینه بسیار بلند را روی سختافزار مصرفی فراهم میکند.
– طول زمینه (context length) مرزی روی دسکتاپ: نسخهٔ 35B-A3B میتواند روی کارتهای گرافیک مصرفی با 32 گیگابایت VRAM بیش از 1 میلیون توکن را پردازش کند — قابلیت مهمی که پیشتر نیاز به سختافزار سروری پرقدرت داشت.
قابلیتها و نوآوریهای کاربردی
– پشتیبانی از «agentic tool calling»: مدلها امکان فراخوانی ابزارهای بیرونی (وبسرچ، مفسر کد و غیره) را بهصورت برنامهای دارند که برای ساخت ایجنتهای خودگردان مفید است.
– حالت «Thinking Mode»: حالت پیشفرضی که قبل از خروجی نهایی، زنجیرهٔ استدلال داخلی تولید میکند (با برچسبگذاریهایی مانند
– انتشار مدل پایه: نسخهٔ Base مدل 35B-A3B نیز برای جامعهٔ تحقیقاتی آزاد شده است که به پژوهش و توسعه کمک میکند.
عملکرد و بنچمارکها
آزمایشهای مستقل نشاندهندهٔ عملکرد رقابتی مدلهای Qwen3.5 است؛ بهطوری که مدل 35B-A3B در آزمونهایی مانند MMMLU (دانش عمومی) و MMMU-Pro (استدلال دیداری) از برخی مدلهای بزرگتر و حتی مدلهای اختصاصیِ مطرح پیشی گرفته است (برای مثال GPT-5-mini و Claude Sonnet 4.5). این نتیجه نشان میدهد که کارایی معماری و کوانتیزهسازی میتواند جایگزینی مقرونبهصرفه و عملی برای مقیاس صرفی باشد.
قیمت و دسترسی ابری
برای استفاده از Qwen3.5-Flash در Alibaba Cloud Model Studio، قیمتگذاری پایهای برای پردازش توکنها اعلام شده که از حیث هزینه مجموع نسبت به بسیاری از مدلهای غربی رقابتی است. همچنین قیمتگذاری ابزارها مانند Web Search و Code Interpreter بهصورت جداگانه تعیین شده که برای سازمانها و توسعهدهندگان مستقل جذاب است.
پیامدهای کاربردی
دسترسی آزاد به مدلهای قدرتمند و امکان اجرای کوانتیزهشده روی سختافزار مصرفی، فرصتهای تازهای برای توسعهٔ محلی (on-premise) فراهم میکند:
– کاهش هزینهها در توسعهٔ مدلهای سفارشی
– حفظ حاکمیت داده و امنیت اطلاعات سازمانی با اجرای داخلی مدلها
– توانمندسازی شرکتهای غیرفنی برای استفاده از قابلیتهای agentic بدون وابستگی کامل به APIهای خارجی
جمعبندی
معرفی سری Qwen3.5 Medium نشان میدهد که تمرکز بر طراحی معماری کارآمد و کوانتیزهسازی میتواند به عملکردی نزدیک به مدلهای عظیم با هزینه و نیازهای محاسباتی بسیار کمتر منجر شود. برای توسعهدهندگان و سازمانهایی که به دنبال گزینههای مقیاسپذیر، امن و اقتصادی برای پیادهسازی هوش مصنوعی هستند، این انتشار یک گام مهم محسوب میشود.
