استفاده DeepSeek از Gemini گوگل برای آموزش مدل جدید خود

هفته گذشته، آزمایشگاه چینی دیپ‌سیک نسخه جدیدی از مدل هوش مصنوعی استدلالی خود به نام R1 را منتشر کرد که عملکرد قابل توجهی در آزمون‌های ریاضی و برنامه‌نویسی از خود نشان می‌دهد. این شرکت منبع داده‌هایی که برای آموزش مدل استفاده کرده است را فاش نکرده، اما برخی از محققان هوش مصنوعی بر این باورند که بخشی از این داده‌ها ممکن است از خانواده هوش مصنوعی جمنای گوگل باشد. سم پیچ، توسعه‌دهنده‌ای از ملبورن که ارزیابی‌های “هوش عاطفی” برای هوش مصنوعی ایجاد می‌کند، ادعا کرده است که شواهدی مبنی بر اینکه مدل جدید دیپ‌سیک بر اساس خروجی‌های جمنای گوگل آموزش دیده، منتشر کرده است. او در یک پست در شبکه اجتماعی X اشاره کرده که مدل دیپ‌سیک به نام R1-0528 تمایل به استفاده از عبارات مشابه با آن‌چه که جمنای 2.5 پرو استفاده می‌کند، دارد.

اگر از خود می‌پرسیدید که چرا صدای جدید دیپ‌سیک R1 کمی متفاوت به نظر می‌رسد، پیچ معتقد است که آن‌ها احتمالاً تمرکز خود را از آموزش بر پایه داده‌های مصنوعی OpenAI به سمت داده‌های مصنوعی جمنای گوگل تغییر داده‌اند. هرچند این موضوع هنوز به عنوان یک مدرک قوی شناخته نمی‌شود، اما یک توسعه‌دهنده دیگر، که به صورت ناشناس “SpeechMap” را ایجاد کرده که ارزیابی‌های آزادی بیان برای هوش مصنوعی است، به این نکته اشاره کرده که نشانه‌های مدل دیپ‌سیک، به طور خاص “تفکرات” تولید شده آن به نظر می‌رسد که شبیه به نشانه‌های جمنای گوگل باشد.

دیپ‌سیک در گذشته به استفاده از داده‌های دیگر مدل‌های رقیب متهم شده است. در دسامبر گذشته، توسعه‌دهندگان متوجه شدند که مدل V3 دیپ‌سیک اغلب خود را به عنوان ChatGPT، پلتفرم چت بات هوش مصنوعی OpenAI، معرفی می‌کند که نشان می‌دهد ممکن است بر اساس لاگ‌های چت ChatGPT آموزش دیده باشد. اوایل امسال، OpenAI به روزنامه فایننشیال تایمز گفت که شواهدی مبنی بر ارتباط دیپ‌سیک با استفاده از “تقطیر” (distillation) پیدا کرده است؛ یک تکنیک برای آموزش مدل‌های هوش مصنوعی با استخراج داده‌ها از مدل‌های بزرگ‌تر و قوی‌تر.

به گفته بلومبرگ، مایکروسافت، که یک همکار نزدیک و سرمایه‌گذار در OpenAI است، در اواخر سال 2024 متوجه شد که مقدار زیادی داده از طریق حساب‌های توسعه‌دهنده OpenAI که معتقد است با دیپ‌سیک مرتبط است، به خارج از سیستم منتقل می‌شود. اگرچه تقطیر یک روش معمول است، اما قوانین خدمات‌دهی OpenAI مشتریان را از استفاده از خروجی‌های مدل خود برای ساخت AI‌های رقیب ممنوع می‌کند.

بسیاری از مدل‌های هوش مصنوعی ممکن است خود را به اشتباه شناسایی کنند و این به دلیل دقت در استفاده از واژه‌ها و عبارات مشابه است. زیرا وب آزاد، که مکانی است که شرکت‌های هوش مصنوعی عمدتاً داده‌های آموزشی خود را از آن جمع‌آوری می‌کنند، به شدت آلوده به محتوای بی‌کیفیت شده است. این “آلودگی” روند تفکیک دقیق خروجی‌های هوش مصنوعی را از داده‌های آموزشی بسیار دشوار کرده است.

با این حال، متخصصان هوش مصنوعی مانند ناتان لمبرت، محقق در موسسه تحقیقات غیرانتفاعی AI2، اعتقاد دارند که احتمال دارد دیپ‌سیک بر اساس داده‌های جمنای گوگل آموزش دیده باشد. او در پستی در شبکه اجتماعی X نوشت: “اگر من دیپ‌سیک بودم، قطعاً داده‌های مصنوعی از بهترین مدل API موجود تولید می‌کردم. آن‌ها کمبود GPU دارند و در عین حال از نظر مالی قوی هستند. این واقعاً برایشان به معنای پردازش بیشتر است.”

به منظور جلوگیری از استفاده نادرست از داده‌ها، شرکت‌های هوش مصنوعی در حال تقویت تدابیر امنیتی خود هستند. در آوریل گذشته، OpenAI شروع به الزامی کردن تأیید هویت برای سازمان‌ها کرد تا به مدل‌های پیشرفته‌تری دسترسی پیدا کنند. این فرایند نیازمند ارائه یک شناسه دولتی از یکی از کشورهایی است که از API OpenAI پشتیبانی می‌کند و چین در این فهرست نیست. همچنین، گوگل به تازگی شروع به “خلاصه‌سازی” نشانه‌های تولید شده توسط مدل‌های موجود در پلتفرم توسعه‌دهنده AI Studio خود کرده است که این امر آموزش مدل‌های رقیب مستحکم‌تر بر اساس نشانه‌های جمنای را دشوارتر می‌کند. آنتروپیک نیز در ماه مه اعلام کرد که برای حفظ مزایای رقابتی خود، به خلاصه‌سازی نشانه‌های مدل‌های خود خواهد پرداخت. ما با گوگل تماس گرفته‌ایم و در صورت دریافت پاسخ، این مطلب را به‌روزرسانی خواهیم کرد.

تحلیل تصویر با هوش مصنوعی

استفاده DeepSeek از Gemini گوگل برای آموزش مدل جدید خود

دیدگاه‌ خود را بنویسید لغو پاسخ