چقدر اطلاعات را واقعاً LLMها حفظ می‌کنند؟ پاسخ در تحقیقات جدید متا، گوگل، انویدیا و دانشگاه کرنل

تحلیل جدیدی در حوزه هوش مصنوعی منتشر شده است که به بررسی ظرفیت حافظه مدل‌های زبانی بزرگ (LLMs) می‌پردازد. این مطالعه که توسط محققان Meta، Google DeepMind، دانشگاه کرنل و NVIDIA انجام شده است، به تحلیل چگونگی تشخیص و یادآوری اطلاعات در این مدل‌ها می‌پردازد و اطلاعات جالبی را در مورد میزان یادآوری و تعمیم در آن‌ها ارائه می‌کند.

مدل‌های زبانی بزرگ نظیر ChatGPT و Claude، عمدتاً از داده‌های گسترده‌ای شامل تریلیون‌ها کلمه که از وب‌سایت‌ها، کتاب‌ها و سایر رسانه‌ها گردآوری شده‌اند، برای آموزش خود استفاده می‌کنند. این داده‌ها به LLMs اجازه می‌دهند تا الگوهای زبانی و شناخت جهان را در قالب میلیاردها پارامتر درون شبکه‌های عصبی مصنوعی ذخیره کنند. این شبکه‌ها قادرند الگوها را شناسایی کرده و پاسخ‌های مناسبی را بر اساس درک یادگرفته شده تولید کنند.

سوالی که هنوز هم محققان را به چالش می‌کشد، این است که تا چه حد این مدل‌ها اطلاعات را به صورت کلمه به کلمه حفظ می‌کنند و تا چه حد توانایی تعمیم یافته‌های خود را دارند. یک مطالعه اخیر نشان داده است که مدل‌های GPT حدود 3.6 بیت حافظه به ازای هر پارامتر دارند. این يعني، حتی با افزایش داده‌های آموزشی، حافظه مدل‌ها به صورت یکنواخت توزیع می‌شود و هر نقطه داده به مراتب کمتر مورد توجه قرار می‌گیرد.

این یافته‌ها می‌توانند نگرانی‌ها را در مورد حفظ محتوای حساس یا مقالات تحت حقوق کپی کاهش دهند. زیرا اگر ظرفیت حافظه محدود باشد و اطلاعات در بین چندین نمونه پخش شود، احتمال ثبت دقیق هر مثال خاص آموزش دیده کم می‌شود و در نتیجه خطر کپی غیرمجاز به حداقل می‌رسد.

محققان با استفاده از داده‌های تصادفی به بررسی چگونگی یادآوری اطلاعات پرداختند. این روش به آن‌ها کمک کرد تا رابطه مستقیمی میان تعداد پارامترهای مدل و اطلاعات ذخیره شده ترسیم کنند. بررسی‌ها نشان داد که در مدل‌های آموزشی بر اساس داده‌های واقعی، تعادل بین حافظه و تعمیم وجود دارد و افزایش حجم داده‌های آموزشی به تعلیم مدل‌ها در شناسایی الگوهای تعمیم‌یافته کمک می‌کند.

نتایج این مطالعه می‌تواند به توضیح رفتار این مدل‌ها کمک کرده و توسعه‌دهندگان و محققان را در ارزیابی رفتار مدل‌های زبانی یاری دهد. در نهایت، این تحقیقات نشان می‌دهد که حجم بیشتری از داده‌ها موجب رفتارهای تعمیم یافته و ایمن‌تری در آموزش مدل‌های زبانی خواهد شد.

چت بات هوش مصنوعی

چقدر اطلاعات را واقعاً LLMها حفظ می‌کنند؟ پاسخ در تحقیقات جدید متا، گوگل، انویدیا و دانشگاه کرنل

دیدگاه‌ خود را بنویسید لغو پاسخ