تحقیقات جدیدی که بهتازگی توسط محققان دانشگاه UCLA و Meta AI انجام شده است، یک فریمورک نوآورانه به نام “d1” را معرفی کردهاند که با استفاده از یادگیری تقویتی (RL) بهطور چشمگیری قابلیتهای منطقی مدلهای زبان بزرگ مبتنی بر انتشار (dLLMs) را تقویت میکند. در حالی که بیشتر توجهات به مدلهای خودکارگرایانه مانند GPT معطوف شده است، dLLMs مزایای منحصربهفردی را ارائه میدهند که میتواند به بهبود کارایی و کاربردهای جدید در سازمانها کمک کند.
مدلهای زبان بزرگ (LLMs) معمولاً بهصورت خودکارگرایانه (AR) عمل میکنند و متن را به صورت توالی تولید میکنند و تنها بر اساس توکنهایی که پیش از آن آمدهاند، توکن بعدی را پیشبینی میکنند. در مقابل، مدلهای زبان انتشار (dLLMs) با یک روش متفاوت کار میکنند. این مدلها بهطور اولیه در ساخت مدلهای تولید تصاویر مانند DALL-E 2، Midjourney و Stable Diffusion استفاده شدهاند. ایده اصلی در مدلهای انتشار شامل افزودن تدریجی نویز به یک تصویر تا تبدیل آن به تودهای از نویز خالص و سپس آموزش مدل برای معکوس کردن این فرآیند بهصورت دقیق است.
تحقیق جدید نشان میدهد که dLLMs میتوانند با آغاز از یک نسخه شدیداً ماسکشده از متن ورودی و بهتدریج “باز کردن” یا پالایش آن در چند مرحله، تولید متن را بهبود بخشند. این فرآیند “از خشن به دقیق” به dLLMs این امکان را میدهد که در هر مرحله، کل زمینه را بهطور همزمان در نظر بگیرند و نه تنها بر روی توکن بعدی تمرکز کنند. این تفاوت احتمالی به مدلهای dLLMs مزیتهایی از جمله پردازش موازی بهتر و زمان استنباط سریعتر بهویژه برای توالیهای طولانیتر میدهد.
آبدیتها نشان میدهد که d1 با استفاده از یک فرآیند دو مرحلهای پس از آموزش برای dLLMs ماسکشده توسعه یافته است و این روش در مدل LLaDA-8B-Instruct آزمایش شده و منجر به دستیابی به بهترین عملکرد در آزمونهای منطقی و ریاضی شده است. به گفته آدیتیا گروور، استادیار علوم کامپیوتر در UCLA، این مدلها میتوانند بهعنوان عاملهای مختلفی برای بارهای کاری سازمانی عمل کنند، از جمله عاملی برای مهندسی نرمافزار لحظهای و تحقیقات عمیق فوقسریع برای مشاوره استراتژیک.
نتایج واقعاً قابل توجهی در بهبود کیفیت پاسخها بهویژه در تولید پاسخهای طولانیتر مشاهده شده است به طوری که مدلها شروع به نشان دادن رفتارهای خوداصلاحی و بازسازی شدهاند که از دادههای موجود در مجموعه داده s1k آموختهاند. بهعلاوه، محققان معتقدند پیشرفتهای dLLMs میتواند دینامیک عرصه را تغییر دهد و اگر یک سازمان با محدودیتهای تأخیر یا هزینه مواجه باشد، میتواند بهراحتی بین این دو نوع مدل انتخاب کند.
با توجه به مزایای یادگیری تقویتی در بهبود توان استدلال، مدلهای dLLM منتخب با دقت بیشتری قادر به ارائه راهحلهای بهینه برای چالشهای موجود در فرآیندهای دیجیتال خواهند بود.