علیبابا با انتشار Qwen3-Coder-Next وارد رقابت جدیدی در عرصه مدلهای کدنویسی شد
تیم تحقیقاتی Qwen از غول تجارت الکترونیک چینی علیبابا این هفته مدل جدیدی برای کدنویسی با نام Qwen3-Coder-Next را منتشر کرد که هدف آن ارائه عملکرد سطح بالا در قالبی سبک و قابل استقرار است. این مدل 80 میلیارد پارامتری با معماری Mixture-of-Experts (MoE) و فعالسازی تنها 3 میلیارد پارامتر در هر عبور، برای کاربردهای تجاری و توسعهدهندگان مستقل تحت مجوز آزاد Apache 2.0 عرضه شده و وزنهای آن در پلتفرم Hugging Face قرار گرفته است.
چرا Qwen3-Coder-Next اهمیت دارد؟
– ترکیب کارایی و بهینگی هزینه: طراحی MoE فوقالعاده رقیقشده باعث شده مدل در هر پردازش تنها بخش کوچکی از پارامترها را فعال کند؛ نتیجه، عملکردی نزدیک به مدلهای عظیم با هزینه استقرار و توان عملیاتی مدلهای سبک است.
– پشتیبانی از زمینه بلندمدت: این مدل با پنجره زمینه تا 262,144 توکن برای پردازش کل مخازن کد (repository-level) طراحی شده که امکان «خواندن» سریع یک کتابخانه پایتون یا فریمورک جاوااسکریپت را فراهم میکند.
– مجوز باز و دسترسی: ارائه وزنها تحت Apache 2.0 مسیر استفاده تجاری و ادغام در محصولات مختلف را باز میگذارد و جامعه متنباز میتواند آن را توسعه دهد.
نوآوریهای فنی کلیدی
– معماری هیبریدی برای مقیاسپذیری: برای عبور از محدودیتهای محاسباتیِ attention کلاسیک، Qwen3-Coder-Next از ترکیب Gated DeltaNet (جایگزین خطی برای attention مبتنی بر softmax) و Gated Attention استفاده میکند تا هزینه محاسباتی با افزایش طول توالی بهصورت تصاعدی بالا نرود.
– بهرهگیری از Mixture-of-Experts: با فعالسازی تنها 3 میلیارد پارامتر در هر پیشران، مدل توان پردازش بالاتری برای کارهای سطح مخزن کد ارائه میدهد، به ادعای تیم Qwen تا 10 برابر throughput بیشتر نسبت به مدلهای چگال (dense) همرده.
– جلوگیری از هالوسینیشن زمینهای: استراتژی Best-Fit Packing (BFP) برای اجتناب از خطاهای بریدهشدن مستندات در زمان آموزش بهکار رفته است.
روش آموزش «عاملمحور» (Agentic)
برخلاف روش سنتی که مدلها را با جفتهای کد-متن آموزش میدهند، Qwen3-Coder-Next از یک پایپلاین آموزش agentic استفاده کرده است. بر پایه گزارش فنی، تیم Qwen حدود 800,000 وظیفه کدنویسی قابلاعتبارسازی تولید کرده که بسیاری از آنها استخراجشده از pull requestهای واقعی روی GitHub بودهاند و در محیطهای اجرایی قابلتست قرار گرفتهاند. زیرساخت آموزش، MegaFlow، یک سامانه ارکستراسیون مبتنی بر Kubernetes در ابر علیبابا است که هر وظیفه را در سه مرحله اجرا، ارزیابی و پسپردازش پیادهسازی میکند. در این چرخه بسته، مدل در محیطهای کانتینری اجرا میشود، بازخورد آنی دریافت میکند و از طریق یادگیری تقویتی میانآموزشی، خطاها را اصلاح مینماید.
قابلیتها و مشخصات برجسته
– پشتیبانی از 370 زبان برنامهنویسی (افزایش از 92 در نسخههای قبلی)
– قالب جدید qwen3_coder برای فراخوانی ابزارها با آرگومانهای سنگین متنی، مناسب تولید قطعات کد بلند بدون پیچیدگیهای quoting مشابه JSON
– میدترینینگ گسترده: حدود 600 میلیارد توکن داده سطح مخزن برای تقویت منطق وابستگی میانفایلی
– استراتژی آموزش با متخصصان حوزهای: مدلهای متخصص وبدولپمنت و تجربه کاربری که سپس در مدل MoE ترکیب (distill) شدهاند
– ارزیابی صفحههای رندرشده با Playwright و قضاوت کیفیت رابط کاربری توسط یک مدل بینایی-زبان (VLM)
عملکرد در بنچمارکها
طبق نتایج گزارششده، Qwen3-Coder-Next در بنچمارکهای مختلف رقابتی ظاهر شده است:
– SWE-Bench Verified: امتیاز 70.6% که همرده با مدلهای بزرگتر مانند DeepSeek-V3.2 و نزدیک به GLM-4.7 است.
– SecCodeBench (تعمیر آسیبپذیریها): عملکرد بهتر نسبت به Claude-Opus-4.5 در تولید کد ایمن (61.2% در برابر 52.5%)، حتی بدون راهنماییهای امنیتی.
– CWEval: امتیاز func-sec@1 برابر 56.32% که نشاندهنده تعادل مناسب بین عملکرد و امنیت در تولید کد چندزبانه است.
پیامدها برای صنعت
این انتشار نشان میدهد که تمرکز بر آموزش عاملمحور و افزایش طول زمینه و توان عملیاتی میتواند به جای صرفاً بزرگتر کردن مدلها، مسیر مؤثرتری برای ساخت ابزارهای کدنویسی واقعی باشد. مدلهایی که بتوانند بهسرعت مخزنهای کد را پردازش کنند، تغییرات را اجرا و خودآزمایی کنند، در عمل ارزش بیشتری نسبت به «هیولاهای» خیلی بزرگ اما کندتر دارند. با ارائه وزنها تحت مجوز باز و تکنیکهای کاهش هزینه استقرار، Qwen3-Coder-Next گامی مهم در دموکراتیزه کردن کدنویسی عاملمحور بهشمار میآید.
جمعبندی
Qwen3-Coder-Next ترکیبی از نوآوریهای معماری، آموزش عملیاتی و توجه به هزینههای عملیاتی است که آن را به گزینهای جذاب برای تیمهای مهندسی نرمافزار و توسعهدهندگان مستقل تبدیل میکند. عرضه تحت Apache 2.0 و دسترسی به وزنها در Hugging Face میتواند سرعت پذیرش و نوآوریهای بیشتر در اکوسیستم ابزارهای کدنویسی متنباز را تسریع کند.
