تیم Qwen شرکت بزرگ تجارت الکترونیکی و وب چینی، علی‌بابا، به‌طور رسمی از مجموعه جدیدی از مدل‌های زبان بزرگ و چندوجهی هوش مصنوعی متن‌باز با نام Qwen3 رونمایی کرده است که به نظر می‌رسد یکی از پیشرفته‌ترین مدل‌های موجود در دسته مدل‌های متن‌باز بوده و عملکردی نزدیک به مدل‌های اختصاصی شرکت‌هایی همچون OpenAI و گوگل دارد.

مجموعه Qwen3 شامل دو مدل “ترکیب متخصصان” و شش مدل متراکم است که در مجموع به هشت مدل جدید می‌رسد. رویکرد “ترکیب متخصصان” شامل ادغام چند نوع مدل تخصصی مختلف در یک مدل واحد است و تنها مدل‌های مرتبط با وظیفه خاصی که در حال انجام است، فعال می‌شوند. این رویکرد توسط استارتاپ هوش مصنوعی متن‌باز فرانسوی Mistral به محبوبیت رسید.

طبق اعلام این تیم، نسخه‌ی ۲۳۵ میلیارد پارامتری Qwen3 که با نام رمز A22B شناخته می‌شود، بر روی معیارهای کلیدی شخص ثالث، از جمله ArenaHard، که شامل ۵۰۰ سؤال از حوزه‌های مهندسی نرم‌افزار و ریاضیات است، بهتر از مدل‌های متن‌باز R1 DeepSeek و مدل اختصاصی o1 OpenAI عمل کرده و به عملکرد جدیدترین مدل اختصاصی گوگل، Gemini 2.5-Pro، نزدیک شده است.

مدل‌های Qwen3 به‌طور خاص برای ارائه قابلیت‌های “استدلال ترکیبی” یا “استدلال پویا” طراحی شده‌اند، که به کاربران اجازه می‌دهد بین پاسخ‌های سریع و دقیق و مراحل استدلالی زمان‌بر و محاسباتی تغییر وضعیت دهند. این قابلیت مشابه “سری o” متعلق به OpenAI برای سوالات پیچیده در زمینه‌های علمی، ریاضی و مهندسی است. با Qwen3، کاربران می‌توانند از حالت “تفکر” بیشتر استفاده کنند که این امکان از طریق وب‌سایت Qwen Chat یا از طریق کدهای خاص به نام‌های /think یا /no_think فراهم شده است.

این مدل‌ها اکنون به‌طور گسترده‌ای در پلتفرم‌هایی نظیر Hugging Face، ModelScope، Kaggle و GitHub در دسترس قرار دارند و کاربران می‌توانند به‌طور مستقیم از طریق رابط وب Qwen Chat و برنامه‌های موبایل با آن‌ها تعامل کنند. نسخه‌های قابل دسترسی شامل مدل‌های ترکیبی و متراکم هستند که همه آن‌ها تحت مجوز متن‌باز Apache 2.0 ارائه شده‌اند.

در آزمایشات اولیه من از وب‌سایت Qwen Chat، این مدل توانست به‌سرعت تصاویری تولید کند و با دقت به دستورات پاسخ دهد، به‌خصوص در مواردی که متن به‌طور بومی در تصویر گنجانده شده باشد. با این حال، وب‌سایت به ارائه برخی از محدودیت‌های محتوایی معمول چینی پرداخته و از کاربران درخواست ورود به سیستم داشت.

علاوه بر مدل‌های ترکیبی، Qwen3 شامل مدل‌های متراکم در سایزهای مختلف از جمله Qwen3-32B، Qwen3-14B، Qwen3-8B، Qwen3-4B، Qwen3-1.7B و Qwen3-0.6B است که به کاربران گزینه‌های متنوعی برای نیازها و بودجه‌های محاسباتی مختلف ارائه می‌دهد.

به‌طور کلی، Qwen3 یک جهش قابل توجه از نسخه قبلی خود یعنی Qwen2.5 می‌باشد. داده‌های آموزشی این مدل به ۳۶ تریلیون توکن افزایش یافته و منابع داده شامل جستجوهای وب، استخراج اسناد شبیه PDF و محتوای تولید شده با مدل‌های قبلی Qwen است. بهبودهای آموزشی به مدل‌های متراکم Qwen3 اجازه می‌دهد تا به عملکرد مدل‌های Qwen2.5 بزرگتر برسند یا از آن فراتر روند.

گزینه‌های پیاده‌سازی این مدل‌ها بسیار متنوع هستند و کاربران می‌توانند از فریمورک‌هایی مانند SGLang و vLLM برای یکپارچه‌سازی مدل‌های Qwen3 استفاده کنند، که هر دو دارای نقاط انتهایی سازگار با OpenAI هستند.

تیم Qwen همچنین بر این نکته تأکید دارد که Qwen3 تنها یک افزایش جزئی نیست، بلکه گامی مهم به سوی اهداف آینده در حوزه هوش مصنوعی عمومی (AGI) و هوش مصنوعی فوق‌هوشمند (ASI) به شمار می‌رود. برنامه‌های آتی شامل مقیاس‌پذیری بیشتر داده‌ها و اندازه مدل، افزایش طول متن، گسترش پشتیبانی از حالت‌ها و بهبود یادگیری تقویتی با مکانیزم‌های بازخورد از محیط خواهد بود.

روند پژوهش در زمینه هوش مصنوعی در مقیاس بزرگ همچنان در حال تکامل است و انتشار وزن‌های متن‌باز Qwen3 تحت مجوزی قابل دسترسی، نشان‌دهنده مرحله‌ای مهم در کاهش موانع برای پژوهشگران، توسعه‌دهندگان و سازمان‌هایی است که تمایل دارند با مدل‌های پیشرفته LLM نوآوری کنند.

گفتگوی هوشمند آنلاین

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا