تحقیقات جدیدی که به‌تازگی توسط محققان دانشگاه UCLA و Meta AI انجام شده است، یک فریم‌ورک نوآورانه به نام “d1” را معرفی کرده‌اند که با استفاده از یادگیری تقویتی (RL) به‌طور چشمگیری قابلیت‌های منطقی مدل‌های زبان بزرگ مبتنی بر انتشار (dLLMs) را تقویت می‌کند. در حالی که بیشتر توجهات به مدل‌های خودکارگرایانه مانند GPT معطوف شده است، dLLMs مزایای منحصربه‌فردی را ارائه می‌دهند که می‌تواند به بهبود کارایی و کاربردهای جدید در سازمان‌ها کمک کند.

مدل‌های زبان بزرگ (LLMs) معمولاً به‌صورت خودکارگرایانه (AR) عمل می‌کنند و متن را به صورت توالی تولید می‌کنند و تنها بر اساس توکن‌هایی که پیش از آن آمده‌اند، توکن بعدی را پیش‌بینی می‌کنند. در مقابل، مدل‌های زبان انتشار (dLLMs) با یک روش متفاوت کار می‌کنند. این مدل‌ها به‌طور اولیه در ساخت مدل‌های تولید تصاویر مانند DALL-E 2، Midjourney و Stable Diffusion استفاده شده‌اند. ایده اصلی در مدل‌های انتشار شامل افزودن تدریجی نویز به یک تصویر تا تبدیل آن به توده‌ای از نویز خالص و سپس آموزش مدل برای معکوس کردن این فرآیند به‌صورت دقیق است.

تحقیق جدید نشان می‌دهد که dLLMs می‌توانند با آغاز از یک نسخه شدیداً ماسک‌شده از متن ورودی و به‌تدریج “باز کردن” یا پالایش آن در چند مرحله، تولید متن را بهبود بخشند. این فرآیند “از خشن به دقیق” به dLLMs این امکان را می‌دهد که در هر مرحله، کل زمینه را به‌طور همزمان در نظر بگیرند و نه تنها بر روی توکن بعدی تمرکز کنند. این تفاوت احتمالی به مدل‌های dLLMs مزیت‌هایی از جمله پردازش موازی بهتر و زمان استنباط سریع‌تر به‌ویژه برای توالی‌های طولانی‌تر می‌دهد.

آبدیت‌ها نشان می‌دهد که d1 با استفاده از یک فرآیند دو مرحله‌ای پس از آموزش برای dLLMs ماسک‌شده توسعه یافته است و این روش در مدل LLaDA-8B-Instruct آزمایش شده و منجر به دستیابی به بهترین عملکرد در آزمون‌های منطقی و ریاضی شده است. به گفته آدیتیا گروور، استادیار علوم کامپیوتر در UCLA، این مدل‌ها می‌توانند به‌عنوان عامل‌های مختلفی برای بارهای کاری سازمانی عمل کنند، از جمله عاملی برای مهندسی نرم‌افزار لحظه‌ای و تحقیقات عمیق فوق‌سریع برای مشاوره استراتژیک.

نتایج واقعاً قابل توجهی در بهبود کیفیت پاسخ‌ها به‌ویژه در تولید پاسخ‌های طولانی‌تر مشاهده شده است به طوری که مدل‌ها شروع به نشان دادن رفتارهای خوداصلاحی و بازسازی شده‌اند که از داده‌های موجود در مجموعه داده s1k آموخته‌اند. به‌علاوه، محققان معتقدند پیشرفت‌های dLLMs می‌تواند دینامیک عرصه را تغییر دهد و اگر یک سازمان با محدودیت‌های تأخیر یا هزینه مواجه باشد، می‌تواند به‌راحتی بین این دو نوع مدل انتخاب کند.

با توجه به مزایای یادگیری تقویتی در بهبود توان استدلال، مدل‌های dLLM منتخب با دقت بیشتری قادر به ارائه راه‌حل‌های بهینه برای چالش‌های موجود در فرآیندهای دیجیتال خواهند بود.

راهنمای هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا