شرکت فناوری چینی علیبابا، روز دوشنبه از مدلهای جدید هوش مصنوعی خود با نام Qwen 3 رونمایی کرد. این مجموعه از مدلها به ادعای شرکت علیبابا قادر است با بهترین مدلهای موجود از جمله محصولات گوگل و OpenAI رقابت کند و در برخی زمینهها عملکرد بهتری از خود نشان دهد. بیشتر این مدلها به زودی تحت مجوز “باز” از پلتفرم توسعهدهندگان هوش مصنوعی Hugging Face و GitHub قابلدسترس خواهند بود و اندازههای آنها از ۰.۶ میلیارد پارامتر تا ۲۳۵ میلیارد پارامتر متغیر است. پارامترها به طور کلی نشاندهنده تواناییهای حل مسئله یک مدل هستند و معمولاً مدلهایی با تعداد پارامترهای بیشتر عملکرد بهتری را ارائه میدهند.
ظهور سری مدلهای Qwen که منشا چینی دارند، فشار بیشتری به آزمایشگاههای آمریکایی مانند OpenAI وارد کرده است تا فناوریهای هوش مصنوعی قویتری را به بازار عرضه کنند. این نگرانیها همچنین منجر به اقداماتی در سطح سیاستگذاران برای محدود کردن دسترسی شرکتهای چینی به تراشههای مورد نیاز برای آموزش مدلها شده است.
مدلهای Qwen 3 به صورت “هیبرید” طراحی شدهاند، به این معنی که توانایی بررسی و استدلال در مسائل پیچیده را دارند و همچنین قادرند به درخواستهای ساده به سرعت پاسخ دهند. این ویژگی به مدلها امکان میدهد تا به طور مؤثری به صحت اطلاعات خود پی ببرند، مشابه مدلهای OpenAI، هرچند با هزینهای در تأخیر پاسخگویی. تیم Qwen در یک پست وبلاگی اعلام کرده است: “ما به طور یکپارچه حالتهای تفکر و عدم تفکر را ادغام کردهایم تا به کاربران انعطاف بیشتری برای کنترل بودجه تفکری بدهیم.”
برخی از مدلها نیز از معماری مخلوط متخصصین (MoE) بهره میبرند که میتواند در پاسخ به سؤالات از نظر محاسباتی کارآمدتر باشد. این معماری وظایف را به زیر وظایف تقسیم کرده و آنها را به مدلهای تخصصی کوچکتر واگذار میکند. علیبابا بیان کرده است که مدلهای Qwen 3 از ۱۱۹ زبان پشتیبانی میکنند و بر روی دادههایی تقریباً به اندازه ۳۶ تریلیون توکن آموزش دیدهاند. توکنها دادههای خامی هستند که یک مدل پردازش میکند؛ ۱ میلیون توکن معادل حدود ۷۵۰,۰۰۰ کلمه است.
علیبابا اعلام کرده است که Qwen 3 با استفاده از ترکیبی از کتابهای درسی، “مجموعههای سؤال و پاسخ”، قطعه کدنویسی و دادههای تولیدشده توسط هوش مصنوعی آموزش دیده است. این پیشرفتها، به همراه سایر بهبودها، کارایی Qwen 3 را نسبت به نسل قبلی آن، یعنی Qwen 2، به طور قابلتوجهی افزایش داده است. اگرچه هیچیک از مدلهای Qwen 3 بهطور قابلملاحظهای از مدلهای پیشرفته اخیر مانند o3 و o4-mini بهتر نیستند، اما همچنان عملکرد قویای از خود نشان میدهند.
مدل جدید Qwen-3-235B-A22B در پلتفرم Codeforces، که محلی برای مسابقات برنامهنویسی است، به تازگی موفق به پیشی گرفتن از مدلهای OpenAI و گوگل شده است. همچنین این مدل در تستهای مربوط به بررسی درستی مسائل ریاضی و توانایی تفکر نیز موفق عمل کرده است. با این حال، مدل Qwen-3-235B-A22B هنوز بهصورت عمومی در دسترس نیست. بزرگترین مدل عمومی Qwen 3، یعنی Qwen3-32B، همچنان با تعدادی از مدلهای اختصاصی و باز هوش مصنوعی رقابت دارد و در چندین تست، از جمله آزمون کدنویسی LiveCodeBench، از مدلهای OpenAI عملکرد بهتری دارد.
علیبابا میگوید که Qwen 3 در امکانات فراخوانی ابزارها و همچنین پیروی از دستورالعملها و کپیکردن فرمتهای خاص داده، برتری دارد. در کنار مدلهای قابلدانلود، Qwen 3 از طریق ارائهدهندگان ابری مانند Fireworks AI و Hyperbolic نیز در دسترس است. تاهین سریفاستاوا، همبنیانگذار و مدیرعامل ارائهدهنده میزبانی ابری Baseten، خاطرنشان کرده است که Qwen 3 با توجه به این روند، گام مهمی در جریان مدلهای باز به شمار میآید که در برابر سیستمهای بستهای مانند OpenAI رقابت میکنند.
بهگفته او: “ایالات متحده در حال تشدید محدودیتها بر فروش تراشهها به چین و خرید از چین است، اما مدلهایی مانند Qwen 3 که از نظر فناوری پیشرفته و باز هستند، قطعاً در داخل کشور استفاده خواهند شد.”