هفته گذشته، آزمایشگاه چینی دیپسیک نسخه جدیدی از مدل هوش مصنوعی استدلالی خود به نام R1 را منتشر کرد که عملکرد قابل توجهی در آزمونهای ریاضی و برنامهنویسی از خود نشان میدهد. این شرکت منبع دادههایی که برای آموزش مدل استفاده کرده است را فاش نکرده، اما برخی از محققان هوش مصنوعی بر این باورند که بخشی از این دادهها ممکن است از خانواده هوش مصنوعی جمنای گوگل باشد. سم پیچ، توسعهدهندهای از ملبورن که ارزیابیهای “هوش عاطفی” برای هوش مصنوعی ایجاد میکند، ادعا کرده است که شواهدی مبنی بر اینکه مدل جدید دیپسیک بر اساس خروجیهای جمنای گوگل آموزش دیده، منتشر کرده است. او در یک پست در شبکه اجتماعی X اشاره کرده که مدل دیپسیک به نام R1-0528 تمایل به استفاده از عبارات مشابه با آنچه که جمنای 2.5 پرو استفاده میکند، دارد.
اگر از خود میپرسیدید که چرا صدای جدید دیپسیک R1 کمی متفاوت به نظر میرسد، پیچ معتقد است که آنها احتمالاً تمرکز خود را از آموزش بر پایه دادههای مصنوعی OpenAI به سمت دادههای مصنوعی جمنای گوگل تغییر دادهاند. هرچند این موضوع هنوز به عنوان یک مدرک قوی شناخته نمیشود، اما یک توسعهدهنده دیگر، که به صورت ناشناس “SpeechMap” را ایجاد کرده که ارزیابیهای آزادی بیان برای هوش مصنوعی است، به این نکته اشاره کرده که نشانههای مدل دیپسیک، به طور خاص “تفکرات” تولید شده آن به نظر میرسد که شبیه به نشانههای جمنای گوگل باشد.
دیپسیک در گذشته به استفاده از دادههای دیگر مدلهای رقیب متهم شده است. در دسامبر گذشته، توسعهدهندگان متوجه شدند که مدل V3 دیپسیک اغلب خود را به عنوان ChatGPT، پلتفرم چت بات هوش مصنوعی OpenAI، معرفی میکند که نشان میدهد ممکن است بر اساس لاگهای چت ChatGPT آموزش دیده باشد. اوایل امسال، OpenAI به روزنامه فایننشیال تایمز گفت که شواهدی مبنی بر ارتباط دیپسیک با استفاده از “تقطیر” (distillation) پیدا کرده است؛ یک تکنیک برای آموزش مدلهای هوش مصنوعی با استخراج دادهها از مدلهای بزرگتر و قویتر.
به گفته بلومبرگ، مایکروسافت، که یک همکار نزدیک و سرمایهگذار در OpenAI است، در اواخر سال 2024 متوجه شد که مقدار زیادی داده از طریق حسابهای توسعهدهنده OpenAI که معتقد است با دیپسیک مرتبط است، به خارج از سیستم منتقل میشود. اگرچه تقطیر یک روش معمول است، اما قوانین خدماتدهی OpenAI مشتریان را از استفاده از خروجیهای مدل خود برای ساخت AIهای رقیب ممنوع میکند.
بسیاری از مدلهای هوش مصنوعی ممکن است خود را به اشتباه شناسایی کنند و این به دلیل دقت در استفاده از واژهها و عبارات مشابه است. زیرا وب آزاد، که مکانی است که شرکتهای هوش مصنوعی عمدتاً دادههای آموزشی خود را از آن جمعآوری میکنند، به شدت آلوده به محتوای بیکیفیت شده است. این “آلودگی” روند تفکیک دقیق خروجیهای هوش مصنوعی را از دادههای آموزشی بسیار دشوار کرده است.
با این حال، متخصصان هوش مصنوعی مانند ناتان لمبرت، محقق در موسسه تحقیقات غیرانتفاعی AI2، اعتقاد دارند که احتمال دارد دیپسیک بر اساس دادههای جمنای گوگل آموزش دیده باشد. او در پستی در شبکه اجتماعی X نوشت: “اگر من دیپسیک بودم، قطعاً دادههای مصنوعی از بهترین مدل API موجود تولید میکردم. آنها کمبود GPU دارند و در عین حال از نظر مالی قوی هستند. این واقعاً برایشان به معنای پردازش بیشتر است.”
به منظور جلوگیری از استفاده نادرست از دادهها، شرکتهای هوش مصنوعی در حال تقویت تدابیر امنیتی خود هستند. در آوریل گذشته، OpenAI شروع به الزامی کردن تأیید هویت برای سازمانها کرد تا به مدلهای پیشرفتهتری دسترسی پیدا کنند. این فرایند نیازمند ارائه یک شناسه دولتی از یکی از کشورهایی است که از API OpenAI پشتیبانی میکند و چین در این فهرست نیست. همچنین، گوگل به تازگی شروع به “خلاصهسازی” نشانههای تولید شده توسط مدلهای موجود در پلتفرم توسعهدهنده AI Studio خود کرده است که این امر آموزش مدلهای رقیب مستحکمتر بر اساس نشانههای جمنای را دشوارتر میکند. آنتروپیک نیز در ماه مه اعلام کرد که برای حفظ مزایای رقابتی خود، به خلاصهسازی نشانههای مدلهای خود خواهد پرداخت. ما با گوگل تماس گرفتهایم و در صورت دریافت پاسخ، این مطلب را بهروزرسانی خواهیم کرد.