شرکت فناوری چینی علی‌بابا، روز دوشنبه از مدل‌های جدید هوش مصنوعی خود با نام Qwen 3 رونمایی کرد. این مجموعه از مدل‌ها به ادعای شرکت علی‌بابا قادر است با بهترین مدل‌های موجود از جمله محصولات گوگل و OpenAI رقابت کند و در برخی زمینه‌ها عملکرد بهتری از خود نشان دهد. بیشتر این مدل‌ها به زودی تحت مجوز “باز” از پلتفرم توسعه‌دهندگان هوش مصنوعی Hugging Face و GitHub قابل‌دسترس خواهند بود و اندازه‌های آن‌ها از ۰.۶ میلیارد پارامتر تا ۲۳۵ میلیارد پارامتر متغیر است. پارامترها به طور کلی نشان‌دهنده توانایی‌های حل مسئله یک مدل هستند و معمولاً مدل‌هایی با تعداد پارامترهای بیشتر عملکرد بهتری را ارائه می‌دهند.

ظهور سری مدل‌های Qwen که منشا چینی دارند، فشار بیشتری به آزمایشگاه‌های آمریکایی مانند OpenAI وارد کرده است تا فناوری‌های هوش مصنوعی قوی‌تری را به بازار عرضه کنند. این نگرانی‌ها همچنین منجر به اقداماتی در سطح سیاست‌گذاران برای محدود کردن دسترسی شرکت‌های چینی به تراشه‌های مورد نیاز برای آموزش مدل‌ها شده است.

مدل‌های Qwen 3 به صورت “هیبرید” طراحی شده‌اند، به این معنی که توانایی بررسی و استدلال در مسائل پیچیده را دارند و همچنین قادرند به درخواست‌های ساده به سرعت پاسخ دهند. این ویژگی به مدل‌ها امکان می‌دهد تا به طور مؤثری به صحت اطلاعات خود پی ببرند، مشابه مدل‌های OpenAI، هرچند با هزینه‌ای در تأخیر پاسخگویی. تیم Qwen در یک پست وبلاگی اعلام کرده است: “ما به طور یکپارچه حالت‌های تفکر و عدم تفکر را ادغام کرده‌ایم تا به کاربران انعطاف بیشتری برای کنترل بودجه تفکری بدهیم.”

برخی از مدل‌ها نیز از معماری مخلوط متخصصین (MoE) بهره می‌برند که می‌تواند در پاسخ به سؤالات از نظر محاسباتی کارآمدتر باشد. این معماری وظایف را به زیر وظایف تقسیم کرده و آن‌ها را به مدل‌های تخصصی کوچکتر واگذار می‌کند. علی‌بابا بیان کرده است که مدل‌های Qwen 3 از ۱۱۹ زبان پشتیبانی می‌کنند و بر روی داده‌هایی تقریباً به اندازه ۳۶ تریلیون توکن آموزش دیده‌اند. توکن‌ها داده‌های خامی هستند که یک مدل پردازش می‌کند؛ ۱ میلیون توکن معادل حدود ۷۵۰,۰۰۰ کلمه است.

علی‌بابا اعلام کرده است که Qwen 3 با استفاده از ترکیبی از کتاب‌های درسی، “مجموعه‌های سؤال و پاسخ”، قطعه کدنویسی و داده‌های تولیدشده توسط هوش مصنوعی آموزش دیده است. این پیشرفت‌ها، به همراه سایر بهبودها، کارایی Qwen 3 را نسبت به نسل قبلی آن، یعنی Qwen 2، به طور قابل‌توجهی افزایش داده است. اگرچه هیچ‌یک از مدل‌های Qwen 3 به‌طور قابل‌ملاحظه‌ای از مدل‌های پیشرفته اخیر مانند o3 و o4-mini بهتر نیستند، اما همچنان عملکرد قوی‌ای از خود نشان می‌دهند.

مدل جدید Qwen-3-235B-A22B در پلتفرم Codeforces، که محلی برای مسابقات برنامه‌نویسی است، به تازگی موفق به پیشی گرفتن از مدل‌های OpenAI و گوگل شده است. همچنین این مدل در تست‌های مربوط به بررسی درستی مسائل ریاضی و توانایی تفکر نیز موفق عمل کرده است. با این حال، مدل Qwen-3-235B-A22B هنوز به‌صورت عمومی در دسترس نیست. بزرگ‌ترین مدل عمومی Qwen 3، یعنی Qwen3-32B، همچنان با تعدادی از مدل‌های اختصاصی و باز هوش مصنوعی رقابت دارد و در چندین تست، از جمله آزمون کدنویسی LiveCodeBench، از مدل‌های OpenAI عملکرد بهتری دارد.

علی‌بابا می‌گوید که Qwen 3 در امکانات فراخوانی ابزارها و همچنین پیروی از دستورالعمل‌ها و کپی‌کردن فرمت‌های خاص داده، برتری دارد. در کنار مدل‌های قابل‌دانلود، Qwen 3 از طریق ارائه‌دهندگان ابری مانند Fireworks AI و Hyperbolic نیز در دسترس است. تاهین سریفاستاوا، هم‌بنیان‌گذار و مدیرعامل ارائه‌دهنده میزبانی ابری Baseten، خاطرنشان کرده است که Qwen 3 با توجه به این روند، گام مهمی در جریان مدل‌های باز به شمار می‌آید که در برابر سیستم‌های بسته‌ای مانند OpenAI رقابت می‌کنند.

به‌گفته او: “ایالات متحده در حال تشدید محدودیت‌ها بر فروش تراشه‌ها به چین و خرید از چین است، اما مدل‌هایی مانند Qwen 3 که از نظر فناوری پیشرفته و باز هستند، قطعاً در داخل کشور استفاده خواهند شد.”

خوانش متن با صدای طبیعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا