همایش VB Transform، که بهعنوان یک رویداد معتبر توسط رهبران سازمانها تقریباً به مدت دو دهه شناخته میشود، به زودی برگزار میشود. این همایش با هدف گردهمآوری افرادی که به توسعه استراتژیهای واقعی هوش مصنوعی در سازمانها مشغولاند، برنامهریزی شده است.
در ماه گذشته، گوگل دیپ مایند به همراه مجموعهای جامع از ابزارها و نوآوریهای جدید هوش مصنوعی، مدل تحقیقاتی Gemini Diffusion را معرفی کرد. این مدل پژوهشی بهویژه برای تولید متن از رویکرد مبتنی بر انتشار استفاده میکند. بهطور سنتی، مدلهای زبان بزرگ (LLMs) مانند GPT و خود Gemini از روش خودکارسازی (autoregression) استفاده میکنند که به تولید کلمات بهصورت گامبهگام و بر اساس کلمات قبلی میپردازد. در مقابل، مدلهای زبان مبتنی بر انتشار (DLMs) با استفاده از روشی معمولاً برای تولید تصویر، از نویز تصادفی شروع کرده و بهتدریج آن را به یک خروجی معقول تبدیل میکنند. این رویکرد بهطور قابلتوجهی سرعت تولید را افزایش داده و میتواند به بهبود انسجام و ثبات متن کمک کند.
Gemini Diffusion در حال حاضر بهعنوان یک دمو تجربی در دسترس است و برای دستیابی به آن میتوانید در لیست انتظار ثبتنام کنید. لازم به ذکر است که در همایش VB Transform که در تاریخ ۲۴ و ۲۵ ژوئن در سانفرانسیسکو برگزار خواهد شد، تغییرات پارادایمی همچون مدلهای زبانی مبتنی بر انتشار و نحوه راهاندازی آنها در تولید مورد بررسی قرار خواهند گرفت.
مدلهای انتشار و روش خودکارسازی از نظر بنیادی متفاوت هستند. روش خودکارسازی متن را بهصورت دنبالهای تولید میکند و پیشبینی توکنها بهصورت یک به یک صورت میگیرد. در حالی که این روش تضمین میکند متن بهخوبی منسجم و دارای سیاق باشد، اما ممکن است محاسباتی سنگین و کند، بهویژه در محتوای طولانی، باشد. مدلهای انتشار بهطور مستقل از نویز تصادفی شروع میشوند و بهتدریج آن را به یک خروجی معقول تبدیل میکنند. با استفاده از این تکنیک، قابلیت پردازش بلوکهای متنی بهصورت موازی وجود دارد که میتواند منجر به تولید مقاطع یا جملات به میزان بسیار بالاتری شود.
مدل Gemini Diffusion گزارش داده شده که قادر به تولید ۱۰۰۰ تا ۲۰۰۰ توکن در ثانیه است، در حالی که مدل Gemini 2.5 Flash با سرعت متوسط ۲۷۲.۴ توکن در ثانیه عمل میکند. علاوه بر این، اشتباهات در حین تولید میتوانند در طول فرآیند اصلاح بهبود یابند و این امر دقت را افزایش داده و تعداد نتایج نادرست را کاهش میدهد.
مدلهای انتشار معمولاً به ورودی یا شرطی نیاز دارند، مانند یک درخواست، برچسب کلاس یا نامگذاری، که کمک میکند تولید به سمت نتایج موردنظر هدایت شود. در مصاحبهای با وبسایت VentureBeat، برندان اوداناهو، دانشمند تحقیقاتی در گوگل دیپ مایند و یکی از رهبران پروژه Gemini Diffusion، درباره مزایای تکنیکهای مبتنی بر انتشار در مقایسه با خودکارسازی توضیحاتی ارائه داد.
در نهایت، مدلهای انتشار، با توانایی تولید متن در سرعت بسیار بالاتر نسبت به مدلهای خودکارسازی، شکاف عملکردی بین این دو رویکرد را کاهش داده و توانایی اصلاح اشتباهات را دارند، که در آینده میتواند به نتایج دقیقتری منجر شود. Gemini Diffusion به یک اکوسیستم در حال رشد از مدلهای انتشار میپیوندد و بهعنوان یک جایگزین مقیاسپذیر و قابل موازیسازی برای معماریهای سنتی خودکارسازی شناخته میشود.