Qwen3-Coder-Next متن‌باز: مدل فوق‌پراکنده با توان عملیاتی ۱۰ برابر برای وظایف مخازن کد Vibe Coders

علی‌بابا با انتشار Qwen3-Coder-Next وارد رقابت جدیدی در عرصه مدل‌های کدنویسی شد

تیم تحقیقاتی Qwen از غول تجارت الکترونیک چینی علی‌بابا این هفته مدل جدیدی برای کدنویسی با نام Qwen3-Coder-Next را منتشر کرد که هدف آن ارائه عملکرد سطح بالا در قالبی سبک و قابل استقرار است. این مدل 80 میلیارد پارامتری با معماری Mixture-of-Experts (MoE) و فعال‌سازی تنها 3 میلیارد پارامتر در هر عبور، برای کاربردهای تجاری و توسعه‌دهندگان مستقل تحت مجوز آزاد Apache 2.0 عرضه شده و وزن‌های آن در پلتفرم Hugging Face قرار گرفته است.

چرا Qwen3-Coder-Next اهمیت دارد؟
– ترکیب کارایی و بهینگی هزینه: طراحی MoE فوق‌العاده رقیق‌شده باعث شده مدل در هر پردازش تنها بخش کوچکی از پارامترها را فعال کند؛ نتیجه، عملکردی نزدیک به مدل‌های عظیم با هزینه استقرار و توان عملیاتی مدل‌های سبک است.
– پشتیبانی از زمینه بلندمدت: این مدل با پنجره زمینه تا 262,144 توکن برای پردازش کل مخازن کد (repository-level) طراحی شده که امکان «خواندن» سریع یک کتابخانه پایتون یا فریمورک جاوااسکریپت را فراهم می‌کند.
– مجوز باز و دسترسی: ارائه وزن‌ها تحت Apache 2.0 مسیر استفاده تجاری و ادغام در محصولات مختلف را باز می‌گذارد و جامعه متن‌باز می‌تواند آن را توسعه دهد.

نوآوری‌های فنی کلیدی
– معماری هیبریدی برای مقیاس‌پذیری: برای عبور از محدودیت‌های محاسباتیِ attention کلاسیک، Qwen3-Coder-Next از ترکیب Gated DeltaNet (جایگزین خطی برای attention مبتنی بر softmax) و Gated Attention استفاده می‌کند تا هزینه محاسباتی با افزایش طول توالی به‌صورت تصاعدی بالا نرود.
– بهره‌گیری از Mixture-of-Experts: با فعال‌سازی تنها 3 میلیارد پارامتر در هر پیش‌ران، مدل توان پردازش بالاتری برای کارهای سطح مخزن کد ارائه می‌دهد، به ادعای تیم Qwen تا 10 برابر throughput بیشتر نسبت به مدل‌های چگال (dense) هم‌رده.
– جلوگیری از هالوسینیشن زمینه‌ای: استراتژی Best-Fit Packing (BFP) برای اجتناب از خطاهای بریده‌شدن مستندات در زمان آموزش به‌کار رفته است.

روش آموزش «عامل‌محور» (Agentic)
برخلاف روش سنتی که مدل‌ها را با جفت‌های کد-متن آموزش می‌دهند، Qwen3-Coder-Next از یک پایپ‌لاین آموزش agentic استفاده کرده است. بر پایه گزارش فنی، تیم Qwen حدود 800,000 وظیفه کدنویسی قابل‌اعتبارسازی تولید کرده که بسیاری از آن‌ها استخراج‌شده از pull requestهای واقعی روی GitHub بوده‌اند و در محیط‌های اجرایی قابل‌تست قرار گرفته‌اند. زیرساخت آموزش، MegaFlow، یک سامانه ارکستراسیون مبتنی بر Kubernetes در ابر علی‌بابا است که هر وظیفه را در سه مرحله اجرا، ارزیابی و پس‌پردازش پیاده‌سازی می‌کند. در این چرخه بسته، مدل در محیط‌های کانتینری اجرا می‌شود، بازخورد آنی دریافت می‌کند و از طریق یادگیری تقویتی میان‌آموزشی، خطاها را اصلاح می‌نماید.

قابلیت‌ها و مشخصات برجسته
– پشتیبانی از 370 زبان برنامه‌نویسی (افزایش از 92 در نسخه‌های قبلی)
– قالب جدید qwen3_coder برای فراخوانی ابزارها با آرگومان‌های سنگین متنی، مناسب تولید قطعات کد بلند بدون پیچیدگی‌های quoting مشابه JSON
– میدترینینگ گسترده: حدود 600 میلیارد توکن داده سطح مخزن برای تقویت منطق وابستگی میان‌فایلی
– استراتژی آموزش با متخصصان حوزه‌ای: مدل‌های متخصص وب‌دولپمنت و تجربه کاربری که سپس در مدل MoE ترکیب (distill) شده‌اند
– ارزیابی صفحه‌های رندرشده با Playwright و قضاوت کیفیت رابط کاربری توسط یک مدل بینایی-زبان (VLM)

عملکرد در بنچمارک‌ها
طبق نتایج گزارش‌شده، Qwen3-Coder-Next در بنچمارک‌های مختلف رقابتی ظاهر شده است:
– SWE-Bench Verified: امتیاز 70.6% که هم‌رده با مدل‌های بزرگ‌تر مانند DeepSeek-V3.2 و نزدیک به GLM-4.7 است.
– SecCodeBench (تعمیر آسیب‌پذیری‌ها): عملکرد بهتر نسبت به Claude-Opus-4.5 در تولید کد ایمن (61.2% در برابر 52.5%)، حتی بدون راهنمایی‌های امنیتی.
– CWEval: امتیاز func-sec@1 برابر 56.32% که نشان‌دهنده تعادل مناسب بین عملکرد و امنیت در تولید کد چندزبانه است.

پیامدها برای صنعت
این انتشار نشان می‌دهد که تمرکز بر آموزش عامل‌محور و افزایش طول زمینه و توان عملیاتی می‌تواند به جای صرفاً بزرگ‌تر کردن مدل‌ها، مسیر مؤثرتری برای ساخت ابزارهای کدنویسی واقعی باشد. مدل‌هایی که بتوانند به‌سرعت مخزن‌های کد را پردازش کنند، تغییرات را اجرا و خودآزمایی کنند، در عمل ارزش بیشتری نسبت به «هیولاهای» خیلی بزرگ اما کندتر دارند. با ارائه وزن‌ها تحت مجوز باز و تکنیک‌های کاهش هزینه استقرار، Qwen3-Coder-Next گامی مهم در دموکراتیزه کردن کدنویسی عامل‌محور به‌شمار می‌آید.

جمع‌بندی
Qwen3-Coder-Next ترکیبی از نوآوری‌های معماری، آموزش عملیاتی و توجه به هزینه‌های عملیاتی است که آن را به گزینه‌ای جذاب برای تیم‌های مهندسی نرم‌افزار و توسعه‌دهندگان مستقل تبدیل می‌کند. عرضه تحت Apache 2.0 و دسترسی به وزن‌ها در Hugging Face می‌تواند سرعت پذیرش و نوآوری‌های بیشتر در اکوسیستم ابزارهای کدنویسی متن‌باز را تسریع کند.

تبدیل گفتار به نوشتار

Qwen3-Coder-Next متن‌باز: مدل فوق‌پراکنده با توان عملیاتی ۱۰ برابر برای وظایف مخازن کد Vibe Coders

دیدگاه‌ خود را بنویسید لغو پاسخ