تیم Qwen شرکت بزرگ تجارت الکترونیکی و وب چینی، علیبابا، بهطور رسمی از مجموعه جدیدی از مدلهای زبان بزرگ و چندوجهی هوش مصنوعی متنباز با نام Qwen3 رونمایی کرده است که به نظر میرسد یکی از پیشرفتهترین مدلهای موجود در دسته مدلهای متنباز بوده و عملکردی نزدیک به مدلهای اختصاصی شرکتهایی همچون OpenAI و گوگل دارد.
مجموعه Qwen3 شامل دو مدل “ترکیب متخصصان” و شش مدل متراکم است که در مجموع به هشت مدل جدید میرسد. رویکرد “ترکیب متخصصان” شامل ادغام چند نوع مدل تخصصی مختلف در یک مدل واحد است و تنها مدلهای مرتبط با وظیفه خاصی که در حال انجام است، فعال میشوند. این رویکرد توسط استارتاپ هوش مصنوعی متنباز فرانسوی Mistral به محبوبیت رسید.
طبق اعلام این تیم، نسخهی ۲۳۵ میلیارد پارامتری Qwen3 که با نام رمز A22B شناخته میشود، بر روی معیارهای کلیدی شخص ثالث، از جمله ArenaHard، که شامل ۵۰۰ سؤال از حوزههای مهندسی نرمافزار و ریاضیات است، بهتر از مدلهای متنباز R1 DeepSeek و مدل اختصاصی o1 OpenAI عمل کرده و به عملکرد جدیدترین مدل اختصاصی گوگل، Gemini 2.5-Pro، نزدیک شده است.
مدلهای Qwen3 بهطور خاص برای ارائه قابلیتهای “استدلال ترکیبی” یا “استدلال پویا” طراحی شدهاند، که به کاربران اجازه میدهد بین پاسخهای سریع و دقیق و مراحل استدلالی زمانبر و محاسباتی تغییر وضعیت دهند. این قابلیت مشابه “سری o” متعلق به OpenAI برای سوالات پیچیده در زمینههای علمی، ریاضی و مهندسی است. با Qwen3، کاربران میتوانند از حالت “تفکر” بیشتر استفاده کنند که این امکان از طریق وبسایت Qwen Chat یا از طریق کدهای خاص به نامهای /think یا /no_think فراهم شده است.
این مدلها اکنون بهطور گستردهای در پلتفرمهایی نظیر Hugging Face، ModelScope، Kaggle و GitHub در دسترس قرار دارند و کاربران میتوانند بهطور مستقیم از طریق رابط وب Qwen Chat و برنامههای موبایل با آنها تعامل کنند. نسخههای قابل دسترسی شامل مدلهای ترکیبی و متراکم هستند که همه آنها تحت مجوز متنباز Apache 2.0 ارائه شدهاند.
در آزمایشات اولیه من از وبسایت Qwen Chat، این مدل توانست بهسرعت تصاویری تولید کند و با دقت به دستورات پاسخ دهد، بهخصوص در مواردی که متن بهطور بومی در تصویر گنجانده شده باشد. با این حال، وبسایت به ارائه برخی از محدودیتهای محتوایی معمول چینی پرداخته و از کاربران درخواست ورود به سیستم داشت.
علاوه بر مدلهای ترکیبی، Qwen3 شامل مدلهای متراکم در سایزهای مختلف از جمله Qwen3-32B، Qwen3-14B، Qwen3-8B، Qwen3-4B، Qwen3-1.7B و Qwen3-0.6B است که به کاربران گزینههای متنوعی برای نیازها و بودجههای محاسباتی مختلف ارائه میدهد.
بهطور کلی، Qwen3 یک جهش قابل توجه از نسخه قبلی خود یعنی Qwen2.5 میباشد. دادههای آموزشی این مدل به ۳۶ تریلیون توکن افزایش یافته و منابع داده شامل جستجوهای وب، استخراج اسناد شبیه PDF و محتوای تولید شده با مدلهای قبلی Qwen است. بهبودهای آموزشی به مدلهای متراکم Qwen3 اجازه میدهد تا به عملکرد مدلهای Qwen2.5 بزرگتر برسند یا از آن فراتر روند.
گزینههای پیادهسازی این مدلها بسیار متنوع هستند و کاربران میتوانند از فریمورکهایی مانند SGLang و vLLM برای یکپارچهسازی مدلهای Qwen3 استفاده کنند، که هر دو دارای نقاط انتهایی سازگار با OpenAI هستند.
تیم Qwen همچنین بر این نکته تأکید دارد که Qwen3 تنها یک افزایش جزئی نیست، بلکه گامی مهم به سوی اهداف آینده در حوزه هوش مصنوعی عمومی (AGI) و هوش مصنوعی فوقهوشمند (ASI) به شمار میرود. برنامههای آتی شامل مقیاسپذیری بیشتر دادهها و اندازه مدل، افزایش طول متن، گسترش پشتیبانی از حالتها و بهبود یادگیری تقویتی با مکانیزمهای بازخورد از محیط خواهد بود.
روند پژوهش در زمینه هوش مصنوعی در مقیاس بزرگ همچنان در حال تکامل است و انتشار وزنهای متنباز Qwen3 تحت مجوزی قابل دسترسی، نشاندهنده مرحلهای مهم در کاهش موانع برای پژوهشگران، توسعهدهندگان و سازمانهایی است که تمایل دارند با مدلهای پیشرفته LLM نوآوری کنند.