مدل هوش مصنوعی R1 DeepSeek که بهروزرسانی شده و به عنوان یک مدل هوشمند در زمینه منطق شناخته میشود، این هفته توجه زیادی از جامعه هوش مصنوعی را به خود جلب کرده است. علاوه بر این، آزمایشگاه هوش مصنوعی چینی DeepSeek نسخهای کوچکتر و “مستخلص” از مدل جدید خود با نام DeepSeek-R1-0528-Qwen3-8B را منتشر کرد که به ادعای این مجموعه، در برخی معیارها از مدلهای مشابه سایز خود بهتر عمل میکند.
مدل جدید و کوچکتر R1 که بر پایه مدل Qwen3-8B طراحی شده است و در ماه مه توسط Alibaba معرفی شد، در آزمونهای دشواری، از جمله “AIME 2025” که شامل سوالات چالشی ریاضی میشود، عملکرد بهتری نسبت به “Gemini 2.5 Flash” گوگل دارد. همچنین، DeepSeek-R1-0528-Qwen3-8B به طور نزدیک به مدل جدید Phi 4 مایکروسافت در آزمون مهارتهای ریاضی “HMMT” نزدیک شده است.
مدلهای مستخلص مانند DeepSeek-R1-0528-Qwen3-8B معمولاً از نظر قابلیتها نسبت به نسخههای کامل خود محدودتر هستند، اما به لحاظ نیاز محاسباتی به مراتب سبکتر عمل میکنند. بر اساس اطلاعات حاصل از پلتفرم ابری NodeShift، برای اجرای Qwen3-8B به یک GPU با 40GB تا 80GB حافظه نیاز است (مثلاً یک Nvidia H100)، در حالی که مدل کامل R1 به حدود دوازده GPU با حافظه 80GB نیاز دارد.
DeepSeek مدل DeepSeek-R1-0528-Qwen3-8B را با استفاده از متنی که توسط R1 بهروزرسانی شده تولید شده است، آموزش داده و آن را برای بهینهسازی Qwen3-8B استفاده کرد. در صفحه وب مخصوص این مدل در پلتفرم توسعه هوش مصنوعی Hugging Face، DeepSeek این مدل را “برای تحقیقهای دانشگاهی در مورد مدلهای منطقی و توسعه صنعتی متمرکز بر مدلهای کوچک” توصیف کرده است.
مدل DeepSeek-R1-0528-Qwen3-8B تحت مجوز MIT ارائه شده که به این معنی است که میتوان آن را بدون محدودیت برای مقاصد تجاری استفاده کرد. چندین میزبان از جمله LM Studio، این مدل را از طریق API ارائه میدهند.