آزمایشگاه هوش مصنوعی چینی DeepSeek دو نسخه پیش‌نمایش از مدل زبان بزرگ جدید خود، DeepSeek V4، را منتشر کرد؛ نسخه‌ای که به‌عنوان به‌روزرسانی موردانتظار مدل V3.2 و همراه با مدل استدلال R1 معرفی می‌شود. این عرضه شامل دو نسخه V4 Flash و V4 Pro است که هر دو از معماری mixture-of-experts بهره می‌برند و پنجره‌ی زمینه‌ای (context window) برابر با یک میلیون توکن دارند — ظرفیتی که اجازه می‌دهد مجموعه‌های بزرگ کد یا اسناد را در یک درخواست (prompt) پردازش کرد.

معماری mixture-of-experts چیست و چه فایده‌ای دارد؟
در این معماری به‌جای فعال‌سازی همه پارامترها برای هر پرسش، تنها زیرمجموعه‌ای از «اکسپرت‌ها» یا پارامترها برای هر وظیفه فعال می‌شود. این روش به کاهش هزینه‌های استنتاج (inference) و افزایش کارایی منجر می‌شود، به‌ویژه وقتی که مدل باید روی داده‌های حجیم اجرا شود.

مشخصات پارامتری و مقایسه با رقبا
طبق اعلام DeepSeek، نسخه Pro دارای مجموع 1.6 تریلیون پارامتر است که به‌طور همزمان 49 میلیارد پارامتر فعال می‌شوند و به گفته شرکت بزرگ‌ترین مدل با وزن‌های باز (open-weight) فعلی محسوب می‌شود. برای مقایسه، برخی رقبای مطرح عبارت‌اند از Moonshot AI Kimi K 2.6 با 1.1 تریلیون پارامتر و MiniMax M1 با 456 میلیارد پارامتر؛ همچنین V4 Pro بیش از دو برابر DeepSeek V3.2 (671 میلیارد) پارامتر دارد. نسخه کوچک‌تر V4 Flash نیز 284 میلیارد پارامتر کل و حدود 13 میلیارد پارامتر فعال دارد.

ادعاهای عملکردی و بنچ‌مارک‌ها
DeepSeek می‌گوید هر دو مدل نسبت به V3.2 از نظر کارایی و بهره‌وری معماری بهبود یافته‌اند و در بنچ‌مارک‌های استدلالی تا حد زیادی «فاصله را بسته‌اند» با مدل‌های مطرح باز و بسته. این شرکت همچنین مدعی است مدل V4‑Pro‑Max از همتایان متن‌باز خود در مسائل استدلالی پیشی می‌گیرد و در برخی وظایف از GPT‑5.2 و Gemini 3.0 Pro نیز جلوتر است. در آزمون‌های مسابقات برنامه‌نویسی، عملکرد دو نسخه V4 «قابل‌مقایسه با GPT‑5.4» گزارش شده است.

محدودیت‌ها و نقاط ضعف
با وجود پیشرفت‌ها، DeepSeek خود اعتراف کرده که در آزمون‌های دانشی (knowledge tests) کمی عقب‌تر از پیشرفته‌ترین مدل‌های مرزی مانند GPT‑5.4 و Gemini 3.1 Pro قرار می‌گیرد؛ به‌طور کلی تیم توسعه مسیر رشد را حدود 3 تا 6 ماه عقب‌تر از مرزهای پیشرفته ارزیابی کرده‌اند. نکته مهم دیگر این است که هر دو نسخه V4 فعلاً فقط از متن پشتیبانی می‌کنند و برخلاف بسیاری از مدل‌های بسته (closed-source) پیشرفته، قابلیت پردازش و تولید صوت، تصویر یا ویدئو را ندارند.

قیمت‌گذاری
DeepSeek قیمت‌گذاری رقابتی را برجسته کرده است: نسخه V4 Flash با قیمت 0.14 دلار برای هر میلیون توکن ورودی و 0.28 دلار برای هر میلیون توکن خروجی عرضه می‌شود. نسخه V4 Pro نیز برای هر میلیون توکن ورودی 0.145 دلار و برای هر میلیون توکن خروجی 3.48 دلار قیمت‌گذاری شده است. به‌گفته شرکت، این قیمت‌ها در مقایسه با برخی از مدل‌های مرزی و نیمه‌مرزی، رقابتی‌تر هستند.

مسائل حقوقی و اخلاقی
این رونمایی در زمانی انجام شد که اتهاماتی در سطح بین‌المللی درباره سرقت گسترده مالکیت معنوی آزمایشگاه‌های آمریکایی توسط بازیگران چینی مطرح شده بود. همچنین شرکت‌های Anthropic و OpenAI قبلاً DeepSeek را به «distillation» یا اساساً بازتولید مدل‌های آن‌ها متهم کرده‌اند. این اتهامات می‌تواند تبعات حقوقی و اخلاقی بر استفاده و انتشار مدل‌های باز داشته باشد و نیاز به بررسی مستقل و شفافیت بیشتر در مورد منشأ داده‌ها و روش‌های آموزشی را برجسته می‌کند.

پیامدها برای توسعه‌دهندگان و جامعه تحقیقاتی
اگر ادعاها درباره باز بودن وزن‌ها و قیمت‌گذاری رقابتی تایید شود، DeepSeek V4 می‌تواند گزینه‌ای جذاب برای پژوهشگران، توسعه‌دهندگان و شرکت‌هایی باشد که به دنبال دسترسی به مدل‌های بزرگ با هزینه کمتر و قابلیت پردازش اسناد و کدهای حجیم هستند. با این حال، ادعاهای عملکردی باید توسط بنچ‌مارک‌های مستقل تائید شوند و مسائل قانونی پیرامون مالکیت معنوی نیز نیازمند پیگیری خواهد بود.

جمع‌بندی
عرضه پیش‌نمایش DeepSeek V4 نشان‌دهنده تلاش برای رسیدن به مدل‌های قدرتمند، با پنجره زمینه‌ای بسیار بزرگ و معماری بهینه‌تر است. با این حال، جایگاه نهایی این مدل‌ها در رقابت جهانی بستگی به تأیید عملکرد در آزمایش‌های مستقل، توسعه قابلیت‌های چندرسانه‌ای و روشن شدن ابهامات حقوقی پیرامون فرایند آموزش آن‌ها دارد.

دستیار هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا