افزایش توانایی‌های مدل‌های زبانی بزرگ: بررسی امکان‌پذیری در پژوهش مشترک گوگل و دانشگاه برکلی

پژوهشگران گوگل و دانشگاه کالیفرنیا، برکلی، به تازگی مطالعه‌ای منتشر کرده‌اند که نشان می‌دهد استفاده از یک روش ساده مبتنی بر “مقیاس‌دهی در زمان پاسخ” می‌تواند توانایی‌های استدلالی مدل‌های زبانی بزرگ (LLMs) را به طور قابل توجهی بهبود بخشد. این روش جدید، تکنیکی به نام “جست‌وجوی مبتنی بر نمونه‌برداری” را معرفی می‌کند که با تولید پاسخ‌های متعدد و تأیید آن‌ها توسط خود مدل، عملکرد این سامانه‌ها را تقویت می‌کند.

پیشرفت‌های چشمگیر با استفاده از جست‌وجوی مبتنی بر نمونه‌برداری

در این مطالعه، محققان نشان داده‌اند که حتی پیاده‌سازی ساده‌ای از جست‌وجوی مبتنی بر نمونه‌برداری می‌تواند عملکرد مدل‌هایی مانند Gemini 1.5 Pro را نسبت به مدل‌هایی چون o1-Preview در معتبرترین معیارها ارتقاء دهد. این دستاورد از دو جنبه حائز اهمیت است: اول اینکه فرض نیاز به آموزش‌های پیچیده یا معماری‌های خاص برای دستیابی به عملکرد سطح بالا را به چالش می‌کشد، و دوم اینکه فرصت‌های بالقوه‌ای برای استفاده در کاربردهای سازمانی ایجاد می‌کند.

مقایسه روش‌ها: از یادگیری تقویتی تا خودسازگاری

در حال حاضر، روش‌های معمول برای بهبود عملکرد مدل‌های زبانی در زمان پاسخ شامل یادگیری تقویتی و ابزارهایی مانند خودسازگاری است. به عنوان مثال، در مدل‌های OpenAI o1 و DeepSeek-R1 از زنجیره‌ای از فرآیندهای استدلال (Chain-of-Thought) برای ایجاد پاسخ‌های طولانی‌تر استفاده می‌شود که هرچند مؤثر هستند، اما نیازمند سرمایه‌گذاری‌های سنگین در مرحله آموزش‌اند. از سوی دیگر، خودسازگاری که به انتخاب پاسخی که بیشترین تکرار را داشته باشد متکی است، عملکرد محدودی در حل مسائل پیچیده دارد.

روش جدید جست‌وجوی مبتنی بر نمونه‌برداری، با تولید چندین پاسخ و تأیید صحت آن‌ها از طریق مکانیزم بررسی مدل، راه‌حلی ساده و مقیاس‌پذیر را ارائه می‌دهد که مکمل سایر استراتژی‌های افزایش توان پردازشی محسوب می‌شود. این تکنیک می‌تواند بر روی هر نوع مدل زبانی، حتی آن‌هایی که به طور خاص برای استدلال آموزش ندیده‌اند، اعمال شود.

ساختار عملکرد جست‌وجوی مبتنی بر نمونه‌برداری

این روش شامل سه مرحله اصلی است:
1. تولید پاسخ‌های کاندیدا: مدل زبانی با استفاده از دمای غیر صفر، مجموعه‌ای متنوع از پاسخ‌ها به یک پرسش تولید می‌کند.
2. فرآیند تأیید پاسخ‌ها: هر پاسخ از طریق تعدادی بررسی توسط مدل ارزیابی می‌شود و میانگین نتایج این بررسی‌ها برای تعیین امتیاز نهایی استفاده می‌شود.
3. انتخاب پاسخ برتر: پاسخی که بالاترین امتیاز را داشته باشد یا در مقایسه‌های زوجی بهترین عملکرد را نشان دهد به عنوان پاسخ نهایی انتخاب می‌شود.

تأثیر مقیاس‌دهی در جست‌وجوی نمونه‌برداری

بر پایه دو محور اصلی—میزان نمونه‌برداری و تعداد مراحل تأیید—این روش نشان داده است که با افزایش مقیاس محاسباتی در زمان پاسخ، عملکرد استدلال همچنان ارتقاء یافته و حتی از مرز محدودیت‌های خودسازگاری می‌گذرد. به طور مثال، مدل Gemini 1.5 Pro توانایی خود را فراتر از مدل o1-Preview نشان داده و Gemini 1.5 Flash نیز از نسخه Pro پیشی گرفته است.

چالش‌های هزینه و بهینه‌سازی

هرچند این روش از نظر عملکرد بسیار چشمگیر است، هزینه‌های اجرای آن ممکن است سنگین باشد. پژوهش نشان می‌دهد که با تولید 200 نمونه و 50 مرحله تأیید برای هر پرسش، ممکن است تا 130 میلیون توکن مصرف شود که هزینه‌ای نزدیک به 650 دلار در مدل Gemini 1.5 Pro به همراه دارد. با این حال، استفاده از مدل‌های کوچکتر، مانند Gemini 1.5 Flash، و بهینه‌سازی فرآیندهایی همچون نمونه‌برداری و تأیید، می‌تواند هزینه‌ها را به طور قابل توجهی کاهش دهد؛ به طور مثال، کاهش هزینه به حدود 12 دلار به ازای هر پرسش.

استراتژی‌های بهبود خودتأییدی

دو رویکرد کلیدی برای بهبود توانایی مدل‌ها در بررسی صحت پاسخ‌های خود پیشنهاد شده است:
1. مقایسه مستقیم پاسخ‌های کاندیدا: بررسی تفاوت میان پاسخ‌ها می‌تواند به مدل کمک کند اشتباهات و خطاها را بهتر شناسایی کند.
2. بازنویسی پاسخ‌ها به سبک مناسب وظیفه: بازنویسی پاسخ‌ها به فرمت‌های رسمی‌تر، مانند سبک ریاضی (تئوری-لم-اثبات)، فرآیند ارزیابی را ساده‌تر می‌کند.

کاربردهای عملی و چشم‌انداز آینده

این تکنیک، با ساده‌سازی فرآیند و ایجاد امکان مقیاس‌پذیری بیشتر، توسعه‌دهندگان را قادر می‌سازد تا مرزهای مدل‌های زبانی را در وظایف پیچیده جابه‌جا کنند. همچنین این روش با سایر استراتژی‌های مقیاس‌دهی قابل ترکیب بوده و می‌تواند نقش مهمی در بهره‌وری سازمان‌ها ایفا کند.

پژوهشگران انتظار دارند که توانایی مدل‌ها در خودتأییدی به سرعت پیشرفت کند و نرخ‌های مقیاس‌دهی جست‌وجوی مبتنی بر نمونه‌برداری بهبود یابد، که این مسئله راه را برای حل مسائل پیچیده‌تر با منابع محاسباتی بزرگتر باز می‌کند.

برای مطالعه اخبار بیشتر درباره هوش مصنوعی پیشرفته و کاربردهای آن، به بخش اخبار تخصصی در سایت بینا ویرا مراجعه کنید.

دستیار هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا