علی‌بابا تیم توسعه Qwen را بار دیگر با معرفی سری «Qwen 3.5 Medium» غافلگیر کرد؛ مجموعه‌ای از چهار مدل بزرگ زبانی (LLM) که سه مدل از آن‌ها تحت مجوز آزاد Apache 2.0 برای استفاده تجاری و دانلود در دسترس قرار گرفته‌اند و یک مدل اختصاصی به‌صورت سرویس ابری ارائه می‌شود. این خبر برای توسعه‌دهندگان، پژوهشگران و شرکت‌هایی که به دنبال مدل‌های کارا، کم‌هزینه و قابل استقرار محلی هستند، اهمیت زیادی دارد.

چه چیزهایی منتشر شده؟
– مدل‌های متن‌باز: Qwen3.5-35B-A3B، Qwen3.5-122B-A10B و Qwen3.5-27B — قابل دانلود از Hugging Face و ModelScope زیر مجوز Apache 2.0.
– مدل اختصاصی: Qwen3.5-Flash — نسخهٔ میزبانی‌شده از طریق Alibaba Cloud Model Studio API که امکانات رسمی و قیمت رقابتی ارائه می‌دهد.

ویژگی‌های فنی کلیدی
– معماری هیبریدی: Qwen 3.5 ترکیبی از Gated Delta Networks و لایهٔ sparse Mixture-of-Experts (MoE) است که به کارایی و بهره‌وری محاسباتی بالا کمک می‌کند.
– فعال‌سازی پویا پارامترها: در مدل 35B مجموعاً 35 میلیارد پارامتر وجود دارد اما برای هر توکن تنها حدود 3 میلیارد پارامتر فعال می‌شوند؛ این رویکرد سبب کاهش زمان استنتاج و مصرف حافظه می‌شود.
– تنوع کارشناسان (MoE): لایهٔ MoE از 256 «کارشناس» تشکیل شده که با مسیریابیِ محدود (برای مثال 8 کارشناس مسیریابی‌شده و یک کارشناس مشترک) عملکرد را حفظ کرده و تأخیر را کاهش می‌دهد.
– کوآنتایزاسیون 4 بیتی و KV-cache: تیم Qwen ادعا می‌کند دقت مدل‌ها حتی پس از فشرده‌سازی به 4 بیت و کوآنتایزاسیون کش کلید–مقدار تقریباً بدون افت باقی می‌ماند؛ این موضوع امکان اجرای مدل‌های با پنجرهٔ زمینه بسیار بلند را روی سخت‌افزار مصرفی فراهم می‌کند.
– طول زمینه (context length) مرزی روی دسکتاپ: نسخهٔ 35B-A3B می‌تواند روی کارت‌های گرافیک مصرفی با 32 گیگابایت VRAM بیش از 1 میلیون توکن را پردازش کند — قابلیت مهمی که پیش‌تر نیاز به سخت‌افزار سروری پرقدرت داشت.

قابلیت‌ها و نوآوری‌های کاربردی
– پشتیبانی از «agentic tool calling»: مدل‌ها امکان فراخوانی ابزارهای بیرونی (وب‌سرچ، مفسر کد و غیره) را به‌صورت برنامه‌ای دارند که برای ساخت ایجنت‌های خودگردان مفید است.
– حالت «Thinking Mode»: حالت پیش‌فرضی که قبل از خروجی نهایی، زنجیرهٔ استدلال داخلی تولید می‌کند (با برچسب‌گذاری‌هایی مانند ) تا تصمیم‌گیری‌های پیچیده‌تر قابل‌پیگیری شوند.
– انتشار مدل پایه: نسخهٔ Base مدل 35B-A3B نیز برای جامعهٔ تحقیقاتی آزاد شده است که به پژوهش و توسعه کمک می‌کند.

عملکرد و بنچمارک‌ها
آزمایش‌های مستقل نشان‌دهندهٔ عملکرد رقابتی مدل‌های Qwen3.5 است؛ به‌طوری که مدل 35B-A3B در آزمون‌هایی مانند MMMLU (دانش عمومی) و MMMU-Pro (استدلال دیداری) از برخی مدل‌های بزرگ‌تر و حتی مدل‌های اختصاصیِ مطرح پیشی گرفته است (برای مثال GPT-5-mini و Claude Sonnet 4.5). این نتیجه نشان می‌دهد که کارایی معماری و کوانتیزه‌سازی می‌تواند جایگزینی مقرون‌به‌صرفه و عملی برای مقیاس صرفی باشد.

قیمت و دسترسی ابری
برای استفاده از Qwen3.5-Flash در Alibaba Cloud Model Studio، قیمت‌گذاری پایه‌ای برای پردازش توکن‌ها اعلام شده که از حیث هزینه مجموع نسبت به بسیاری از مدل‌های غربی رقابتی است. همچنین قیمت‌گذاری ابزارها مانند Web Search و Code Interpreter به‌صورت جداگانه تعیین شده که برای سازمان‌ها و توسعه‌دهندگان مستقل جذاب است.

پیامدهای کاربردی
دسترسی آزاد به مدل‌های قدرتمند و امکان اجرای کوانتیزه‌شده روی سخت‌افزار مصرفی، فرصت‌های تازه‌ای برای توسعهٔ محلی (on-premise) فراهم می‌کند:
– کاهش هزینه‌ها در توسعهٔ مدل‌های سفارشی
– حفظ حاکمیت داده و امنیت اطلاعات سازمانی با اجرای داخلی مدل‌ها
– توانمندسازی شرکت‌های غیرفنی برای استفاده از قابلیت‌های agentic بدون وابستگی کامل به APIهای خارجی

جمع‌بندی
معرفی سری Qwen3.5 Medium نشان می‌دهد که تمرکز بر طراحی معماری کارآمد و کوانتیزه‌سازی می‌تواند به عملکردی نزدیک به مدل‌های عظیم با هزینه و نیازهای محاسباتی بسیار کمتر منجر شود. برای توسعه‌دهندگان و سازمان‌هایی که به دنبال گزینه‌های مقیاس‌پذیر، امن و اقتصادی برای پیاده‌سازی هوش مصنوعی هستند، این انتشار یک گام مهم محسوب می‌شود.

تبدیل گفتار به نوشتار فارسی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا