در دنیای هوش مصنوعی، مدل‌های زبان بزرگ (LLM) مبتنی بر ساختار ترانسفورمر، پایه و اساس فناوری‌های تولیدی مدرن هستند. اما ترانسفورمرها تنها راهکار ممکن برای ایجاد هوش مصنوعی نیستند. در سال گذشته، روش مَمبا که از مدل‌های فضای حالت ساختاریافته (SSM) استفاده می‌کند، به عنوان یک رویکرد جایگزین توسط چندین شرکت، از جمله AI21 و غول سیلیکون انویدیا، مورد توجه قرار گرفت.

انویدیا برای اولین بار مفهوم مدل‌های مبتنی بر مَمبا را در سال 2024 معرفی کرد و این هفته، تلاش‌های اولیه خود را با مجموعه‌ای از مدل‌های MambaVision بروزرسانی کرده که اکنون بر روی پلتفرم Hugging Face در دسترس هستند. MambaVision، همان‌طور که از نام آن پیداست، خانواده‌ای از مدل‌های مبتنی بر مَمبا برای وظایف بینایی کامپیوتری و تشخیص تصویر است. وعده MambaVision برای کسب‌وکارها این است که می‌تواند کارایی و دقت عملیات بینایی را با هزینه‌های کمتر بهبود بخشد، به لطف نیازهای محاسباتی پایین‌تر.

مدل‌های SSM، یک کلاس از معماری شبکه عصبی هستند که داده‌های دنباله‌ای را به گونه‌ای متفاوت از ترانسفورمرهای سنتی پردازش می‌کنند. در حالی که ترانسفورمرها از مکانیزم‌های توجه برای پردازش همزمان همه توکن‌ها استفاده می‌کنند، SSMها داده‌های دنباله‌ای را به عنوان یک سیستم پویا پیوسته مدل‌سازی می‌کنند. مَمبا، یک پیاده‌سازی خاص از SSM است که برای رفع محدودیت‌های مدل‌های SSM اولیه توسعه یافته و مدل‌سازی فضای حالت انتخابی را معرفی می‌کند که به طور پویا با داده‌های ورودی و طراحی آگاهانه به سخت‌افزار برای استفاده کارآمد از GPU تطبیق می‌یابد.

در حالی که ترانسفورمرهای بینایی سنتی (ViT) در چند سال گذشته در بینایی کامپیوتری با عملکرد بالا تسلط داشته‌اند، اما هزینه‌های محاسباتی قابل توجهی را نیز به همراه داشته‌اند. رویکردهای مبتنی بر مَمبا، هرچند کارآمدتر هستند، اما در تطبیق با عملکرد ترانسفورمرها در وظایف پیچیده که نیاز به درک زمینه جهانی دارند، با چالش‌هایی روبرو بوده‌اند. MambaVision این شکاف را با اتخاذ رویکردی هیبریدی پر می‌کند. MambaVision، مدل هیبریدی انویدیا، به طور استراتژیک کارایی مَمبا را با قدرت مدل‌سازی ترانسفورمر ترکیب می‌کند. نوآوری معماری آن در فرمولاسیون مجدد مَمبا قرار دارد که به طور خاص برای مدل‌سازی ویژگی‌های بصری طراحی شده و با قرار دادن استراتژیک بلوک‌های خودتوجهی در لایه‌های نهایی برای ثبت وابستگی‌های فضایی پیچیده تقویت شده است.

برخلاف مدل‌های بینایی مرسوم که به طور انحصاری به مکانیزم‌های توجه یا رویکردهای کانولوشنی متکی هستند، معماری سلسله‌مراتبی MambaVision هر دو پارادایم را به طور همزمان به کار می‌گیرد. مدل اطلاعات بصری را از طریق عملیات اسکن دنباله‌ای بر اساس مَمبا پردازش می‌کند و از خودتوجهی برای مدل‌سازی زمینه جهانی بهره می‌برد، به طور مؤثری بهترین ویژگی‌های هر دو جهان را به دست می‌آورد.

مجموعه جدید مدل‌های MambaVision که در Hugging Face منتشر شده‌اند، تحت مجوز کد منبع انویدیا-NC، که یک مجوز باز است، در دسترس قرار دارند. نسخه‌های اولیه MambaVision که در سال 2024 منتشر شدند، شامل واریانت‌های T و T2 بودند که بر روی کتابخانه ImageNet-1K آموزش دیده بودند. مدل‌های جدید منتشر شده این هفته شامل واریانت‌های L/L2 و L3 هستند که مدل‌هایی با مقیاس بزرگ‌تر هستند.

علی حاتمی‌زاده، محقق ارشد انویدیا، در یک پست در Hugging Face نوشت: “از زمان انتشار اولیه، ما به طور چشمگیری MambaVision را ارتقا داده‌ایم، آن را به 740 میلیون پارامتر ارتقا داده‌ایم.” او افزود: “ما رویکرد آموزشی خود را با استفاده از مجموعه داده بزرگ‌تر ImageNet-21K گسترش داده‌ایم و پشتیبانی بومی برای وضوح‌های بالاتر، اکنون تصاویر را با 256 و 512 پیکسل نسبت به 224 پیکسل اصلی، معرفی کرده‌ایم.”

به گفته انویدیا، مقیاس بهبود یافته در مدل‌های جدید MambaVision نیز عملکرد را بهبود می‌بخشد. الکس فازیو، مشاور مستقل هوش مصنوعی، به VentureBeat توضیح داد که آموزش مدل‌های جدید MambaVision بر روی مجموعه داده‌های بزرگ‌تر، آنها را در مدیریت وظایف متنوع‌تر و پیچیده‌تر بسیار بهتر کرده است. او خاطرنشان کرد که مدل‌های جدید شامل واریانت‌های با وضوح بالا هستند که برای تحلیل دقیق تصاویر ایده‌آل هستند. فازیو گفت که این مجموعه همچنین با پیکربندی‌های پیشرفته‌ای گسترش یافته است که انعطاف‌پذیری و مقیاس‌پذیری بیشتری را برای بارهای کاری مختلف ارائه می‌دهد.

“از نظر بنچمارک‌ها، مدل‌های 2025 انتظار می‌رود که از مدل‌های 2024 پیشی بگیرند، زیرا آنها به طور بهتری بر روی مجموعه داده‌ها و وظایف بزرگ‌تر تعمیم می‌یابند.” برای شرکت‌هایی که در حال ساخت برنامه‌های بینایی کامپیوتری هستند، توازن عملکرد و کارایی MambaVision امکانات جدیدی را باز می‌کند.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا