آزمایشگاه هوش مصنوعی چینی DeepSeek دو نسخه پیشنمایش از مدل زبان بزرگ جدید خود، DeepSeek V4، را منتشر کرد؛ نسخهای که بهعنوان بهروزرسانی موردانتظار مدل V3.2 و همراه با مدل استدلال R1 معرفی میشود. این عرضه شامل دو نسخه V4 Flash و V4 Pro است که هر دو از معماری mixture-of-experts بهره میبرند و پنجرهی زمینهای (context window) برابر با یک میلیون توکن دارند — ظرفیتی که اجازه میدهد مجموعههای بزرگ کد یا اسناد را در یک درخواست (prompt) پردازش کرد.
معماری mixture-of-experts چیست و چه فایدهای دارد؟
در این معماری بهجای فعالسازی همه پارامترها برای هر پرسش، تنها زیرمجموعهای از «اکسپرتها» یا پارامترها برای هر وظیفه فعال میشود. این روش به کاهش هزینههای استنتاج (inference) و افزایش کارایی منجر میشود، بهویژه وقتی که مدل باید روی دادههای حجیم اجرا شود.
مشخصات پارامتری و مقایسه با رقبا
طبق اعلام DeepSeek، نسخه Pro دارای مجموع 1.6 تریلیون پارامتر است که بهطور همزمان 49 میلیارد پارامتر فعال میشوند و به گفته شرکت بزرگترین مدل با وزنهای باز (open-weight) فعلی محسوب میشود. برای مقایسه، برخی رقبای مطرح عبارتاند از Moonshot AI Kimi K 2.6 با 1.1 تریلیون پارامتر و MiniMax M1 با 456 میلیارد پارامتر؛ همچنین V4 Pro بیش از دو برابر DeepSeek V3.2 (671 میلیارد) پارامتر دارد. نسخه کوچکتر V4 Flash نیز 284 میلیارد پارامتر کل و حدود 13 میلیارد پارامتر فعال دارد.
ادعاهای عملکردی و بنچمارکها
DeepSeek میگوید هر دو مدل نسبت به V3.2 از نظر کارایی و بهرهوری معماری بهبود یافتهاند و در بنچمارکهای استدلالی تا حد زیادی «فاصله را بستهاند» با مدلهای مطرح باز و بسته. این شرکت همچنین مدعی است مدل V4‑Pro‑Max از همتایان متنباز خود در مسائل استدلالی پیشی میگیرد و در برخی وظایف از GPT‑5.2 و Gemini 3.0 Pro نیز جلوتر است. در آزمونهای مسابقات برنامهنویسی، عملکرد دو نسخه V4 «قابلمقایسه با GPT‑5.4» گزارش شده است.
محدودیتها و نقاط ضعف
با وجود پیشرفتها، DeepSeek خود اعتراف کرده که در آزمونهای دانشی (knowledge tests) کمی عقبتر از پیشرفتهترین مدلهای مرزی مانند GPT‑5.4 و Gemini 3.1 Pro قرار میگیرد؛ بهطور کلی تیم توسعه مسیر رشد را حدود 3 تا 6 ماه عقبتر از مرزهای پیشرفته ارزیابی کردهاند. نکته مهم دیگر این است که هر دو نسخه V4 فعلاً فقط از متن پشتیبانی میکنند و برخلاف بسیاری از مدلهای بسته (closed-source) پیشرفته، قابلیت پردازش و تولید صوت، تصویر یا ویدئو را ندارند.
قیمتگذاری
DeepSeek قیمتگذاری رقابتی را برجسته کرده است: نسخه V4 Flash با قیمت 0.14 دلار برای هر میلیون توکن ورودی و 0.28 دلار برای هر میلیون توکن خروجی عرضه میشود. نسخه V4 Pro نیز برای هر میلیون توکن ورودی 0.145 دلار و برای هر میلیون توکن خروجی 3.48 دلار قیمتگذاری شده است. بهگفته شرکت، این قیمتها در مقایسه با برخی از مدلهای مرزی و نیمهمرزی، رقابتیتر هستند.
مسائل حقوقی و اخلاقی
این رونمایی در زمانی انجام شد که اتهاماتی در سطح بینالمللی درباره سرقت گسترده مالکیت معنوی آزمایشگاههای آمریکایی توسط بازیگران چینی مطرح شده بود. همچنین شرکتهای Anthropic و OpenAI قبلاً DeepSeek را به «distillation» یا اساساً بازتولید مدلهای آنها متهم کردهاند. این اتهامات میتواند تبعات حقوقی و اخلاقی بر استفاده و انتشار مدلهای باز داشته باشد و نیاز به بررسی مستقل و شفافیت بیشتر در مورد منشأ دادهها و روشهای آموزشی را برجسته میکند.
پیامدها برای توسعهدهندگان و جامعه تحقیقاتی
اگر ادعاها درباره باز بودن وزنها و قیمتگذاری رقابتی تایید شود، DeepSeek V4 میتواند گزینهای جذاب برای پژوهشگران، توسعهدهندگان و شرکتهایی باشد که به دنبال دسترسی به مدلهای بزرگ با هزینه کمتر و قابلیت پردازش اسناد و کدهای حجیم هستند. با این حال، ادعاهای عملکردی باید توسط بنچمارکهای مستقل تائید شوند و مسائل قانونی پیرامون مالکیت معنوی نیز نیازمند پیگیری خواهد بود.
جمعبندی
عرضه پیشنمایش DeepSeek V4 نشاندهنده تلاش برای رسیدن به مدلهای قدرتمند، با پنجره زمینهای بسیار بزرگ و معماری بهینهتر است. با این حال، جایگاه نهایی این مدلها در رقابت جهانی بستگی به تأیید عملکرد در آزمایشهای مستقل، توسعه قابلیتهای چندرسانهای و روشن شدن ابهامات حقوقی پیرامون فرایند آموزش آنها دارد.
