در دنیای هوش مصنوعی، مدلهای زبان بزرگ (LLM) مبتنی بر ساختار ترانسفورمر، پایه و اساس فناوریهای تولیدی مدرن هستند. اما ترانسفورمرها تنها راهکار ممکن برای ایجاد هوش مصنوعی نیستند. در سال گذشته، روش مَمبا که از مدلهای فضای حالت ساختاریافته (SSM) استفاده میکند، به عنوان یک رویکرد جایگزین توسط چندین شرکت، از جمله AI21 و غول سیلیکون انویدیا، مورد توجه قرار گرفت.
انویدیا برای اولین بار مفهوم مدلهای مبتنی بر مَمبا را در سال 2024 معرفی کرد و این هفته، تلاشهای اولیه خود را با مجموعهای از مدلهای MambaVision بروزرسانی کرده که اکنون بر روی پلتفرم Hugging Face در دسترس هستند. MambaVision، همانطور که از نام آن پیداست، خانوادهای از مدلهای مبتنی بر مَمبا برای وظایف بینایی کامپیوتری و تشخیص تصویر است. وعده MambaVision برای کسبوکارها این است که میتواند کارایی و دقت عملیات بینایی را با هزینههای کمتر بهبود بخشد، به لطف نیازهای محاسباتی پایینتر.
مدلهای SSM، یک کلاس از معماری شبکه عصبی هستند که دادههای دنبالهای را به گونهای متفاوت از ترانسفورمرهای سنتی پردازش میکنند. در حالی که ترانسفورمرها از مکانیزمهای توجه برای پردازش همزمان همه توکنها استفاده میکنند، SSMها دادههای دنبالهای را به عنوان یک سیستم پویا پیوسته مدلسازی میکنند. مَمبا، یک پیادهسازی خاص از SSM است که برای رفع محدودیتهای مدلهای SSM اولیه توسعه یافته و مدلسازی فضای حالت انتخابی را معرفی میکند که به طور پویا با دادههای ورودی و طراحی آگاهانه به سختافزار برای استفاده کارآمد از GPU تطبیق مییابد.
در حالی که ترانسفورمرهای بینایی سنتی (ViT) در چند سال گذشته در بینایی کامپیوتری با عملکرد بالا تسلط داشتهاند، اما هزینههای محاسباتی قابل توجهی را نیز به همراه داشتهاند. رویکردهای مبتنی بر مَمبا، هرچند کارآمدتر هستند، اما در تطبیق با عملکرد ترانسفورمرها در وظایف پیچیده که نیاز به درک زمینه جهانی دارند، با چالشهایی روبرو بودهاند. MambaVision این شکاف را با اتخاذ رویکردی هیبریدی پر میکند. MambaVision، مدل هیبریدی انویدیا، به طور استراتژیک کارایی مَمبا را با قدرت مدلسازی ترانسفورمر ترکیب میکند. نوآوری معماری آن در فرمولاسیون مجدد مَمبا قرار دارد که به طور خاص برای مدلسازی ویژگیهای بصری طراحی شده و با قرار دادن استراتژیک بلوکهای خودتوجهی در لایههای نهایی برای ثبت وابستگیهای فضایی پیچیده تقویت شده است.
برخلاف مدلهای بینایی مرسوم که به طور انحصاری به مکانیزمهای توجه یا رویکردهای کانولوشنی متکی هستند، معماری سلسلهمراتبی MambaVision هر دو پارادایم را به طور همزمان به کار میگیرد. مدل اطلاعات بصری را از طریق عملیات اسکن دنبالهای بر اساس مَمبا پردازش میکند و از خودتوجهی برای مدلسازی زمینه جهانی بهره میبرد، به طور مؤثری بهترین ویژگیهای هر دو جهان را به دست میآورد.
مجموعه جدید مدلهای MambaVision که در Hugging Face منتشر شدهاند، تحت مجوز کد منبع انویدیا-NC، که یک مجوز باز است، در دسترس قرار دارند. نسخههای اولیه MambaVision که در سال 2024 منتشر شدند، شامل واریانتهای T و T2 بودند که بر روی کتابخانه ImageNet-1K آموزش دیده بودند. مدلهای جدید منتشر شده این هفته شامل واریانتهای L/L2 و L3 هستند که مدلهایی با مقیاس بزرگتر هستند.
علی حاتمیزاده، محقق ارشد انویدیا، در یک پست در Hugging Face نوشت: “از زمان انتشار اولیه، ما به طور چشمگیری MambaVision را ارتقا دادهایم، آن را به 740 میلیون پارامتر ارتقا دادهایم.” او افزود: “ما رویکرد آموزشی خود را با استفاده از مجموعه داده بزرگتر ImageNet-21K گسترش دادهایم و پشتیبانی بومی برای وضوحهای بالاتر، اکنون تصاویر را با 256 و 512 پیکسل نسبت به 224 پیکسل اصلی، معرفی کردهایم.”
به گفته انویدیا، مقیاس بهبود یافته در مدلهای جدید MambaVision نیز عملکرد را بهبود میبخشد. الکس فازیو، مشاور مستقل هوش مصنوعی، به VentureBeat توضیح داد که آموزش مدلهای جدید MambaVision بر روی مجموعه دادههای بزرگتر، آنها را در مدیریت وظایف متنوعتر و پیچیدهتر بسیار بهتر کرده است. او خاطرنشان کرد که مدلهای جدید شامل واریانتهای با وضوح بالا هستند که برای تحلیل دقیق تصاویر ایدهآل هستند. فازیو گفت که این مجموعه همچنین با پیکربندیهای پیشرفتهای گسترش یافته است که انعطافپذیری و مقیاسپذیری بیشتری را برای بارهای کاری مختلف ارائه میدهد.
“از نظر بنچمارکها، مدلهای 2025 انتظار میرود که از مدلهای 2024 پیشی بگیرند، زیرا آنها به طور بهتری بر روی مجموعه دادهها و وظایف بزرگتر تعمیم مییابند.” برای شرکتهایی که در حال ساخت برنامههای بینایی کامپیوتری هستند، توازن عملکرد و کارایی MambaVision امکانات جدیدی را باز میکند.