مدل هوش مصنوعی R1 DeepSeek که به‌روزرسانی شده و به عنوان یک مدل هوشمند در زمینه منطق شناخته می‌شود، این هفته توجه زیادی از جامعه هوش مصنوعی را به خود جلب کرده است. علاوه بر این، آزمایشگاه هوش مصنوعی چینی DeepSeek نسخه‌ای کوچک‌تر و “مستخلص” از مدل جدید خود با نام DeepSeek-R1-0528-Qwen3-8B را منتشر کرد که به ادعای این مجموعه، در برخی معیارها از مدل‌های مشابه سایز خود بهتر عمل می‌کند.

مدل جدید و کوچک‌تر R1 که بر پایه مدل Qwen3-8B طراحی شده است و در ماه مه توسط Alibaba معرفی شد، در آزمون‌های دشواری، از جمله “AIME 2025” که شامل سوالات چالشی ریاضی می‌شود، عملکرد بهتری نسبت به “Gemini 2.5 Flash” گوگل دارد. همچنین، DeepSeek-R1-0528-Qwen3-8B به طور نزدیک به مدل جدید Phi 4 مایکروسافت در آزمون مهارت‌های ریاضی “HMMT” نزدیک شده است.

مدل‌های مستخلص مانند DeepSeek-R1-0528-Qwen3-8B معمولاً از نظر قابلیت‌ها نسبت به نسخه‌های کامل خود محدودتر هستند، اما به لحاظ نیاز محاسباتی به مراتب سبک‌تر عمل می‌کنند. بر اساس اطلاعات حاصل از پلتفرم ابری NodeShift، برای اجرای Qwen3-8B به یک GPU با 40GB تا 80GB حافظه نیاز است (مثلاً یک Nvidia H100)، در حالی که مدل کامل R1 به حدود دوازده GPU با حافظه 80GB نیاز دارد.

DeepSeek مدل DeepSeek-R1-0528-Qwen3-8B را با استفاده از متنی که توسط R1 به‌روزرسانی شده تولید شده است، آموزش داده و آن را برای بهینه‌سازی Qwen3-8B استفاده کرد. در صفحه وب مخصوص این مدل در پلتفرم توسعه هوش مصنوعی Hugging Face، DeepSeek این مدل را “برای تحقیق‌های دانشگاهی در مورد مدل‌های منطقی و توسعه صنعتی متمرکز بر مدل‌های کوچک” توصیف کرده است.

مدل DeepSeek-R1-0528-Qwen3-8B تحت مجوز MIT ارائه شده که به این معنی است که می‌توان آن را بدون محدودیت برای مقاصد تجاری استفاده کرد. چندین میزبان از جمله LM Studio، این مدل را از طریق API ارائه می‌دهند.

تبدیل متن‌های فارسی به صوت

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا