تحلیل جدیدی در حوزه هوش مصنوعی منتشر شده است که به بررسی ظرفیت حافظه مدلهای زبانی بزرگ (LLMs) میپردازد. این مطالعه که توسط محققان Meta، Google DeepMind، دانشگاه کرنل و NVIDIA انجام شده است، به تحلیل چگونگی تشخیص و یادآوری اطلاعات در این مدلها میپردازد و اطلاعات جالبی را در مورد میزان یادآوری و تعمیم در آنها ارائه میکند.
مدلهای زبانی بزرگ نظیر ChatGPT و Claude، عمدتاً از دادههای گستردهای شامل تریلیونها کلمه که از وبسایتها، کتابها و سایر رسانهها گردآوری شدهاند، برای آموزش خود استفاده میکنند. این دادهها به LLMs اجازه میدهند تا الگوهای زبانی و شناخت جهان را در قالب میلیاردها پارامتر درون شبکههای عصبی مصنوعی ذخیره کنند. این شبکهها قادرند الگوها را شناسایی کرده و پاسخهای مناسبی را بر اساس درک یادگرفته شده تولید کنند.
سوالی که هنوز هم محققان را به چالش میکشد، این است که تا چه حد این مدلها اطلاعات را به صورت کلمه به کلمه حفظ میکنند و تا چه حد توانایی تعمیم یافتههای خود را دارند. یک مطالعه اخیر نشان داده است که مدلهای GPT حدود 3.6 بیت حافظه به ازای هر پارامتر دارند. این يعني، حتی با افزایش دادههای آموزشی، حافظه مدلها به صورت یکنواخت توزیع میشود و هر نقطه داده به مراتب کمتر مورد توجه قرار میگیرد.
این یافتهها میتوانند نگرانیها را در مورد حفظ محتوای حساس یا مقالات تحت حقوق کپی کاهش دهند. زیرا اگر ظرفیت حافظه محدود باشد و اطلاعات در بین چندین نمونه پخش شود، احتمال ثبت دقیق هر مثال خاص آموزش دیده کم میشود و در نتیجه خطر کپی غیرمجاز به حداقل میرسد.
محققان با استفاده از دادههای تصادفی به بررسی چگونگی یادآوری اطلاعات پرداختند. این روش به آنها کمک کرد تا رابطه مستقیمی میان تعداد پارامترهای مدل و اطلاعات ذخیره شده ترسیم کنند. بررسیها نشان داد که در مدلهای آموزشی بر اساس دادههای واقعی، تعادل بین حافظه و تعمیم وجود دارد و افزایش حجم دادههای آموزشی به تعلیم مدلها در شناسایی الگوهای تعمیمیافته کمک میکند.
نتایج این مطالعه میتواند به توضیح رفتار این مدلها کمک کرده و توسعهدهندگان و محققان را در ارزیابی رفتار مدلهای زبانی یاری دهد. در نهایت، این تحقیقات نشان میدهد که حجم بیشتری از دادهها موجب رفتارهای تعمیم یافته و ایمنتری در آموزش مدلهای زبانی خواهد شد.