دانشگاه کالیفرنیا، سانتا کروز از انتشار OpenVision، یک خانواده از کدگذارهای بینایی، خبر داد. این مدلهای جدید به عنوان یک جایگزین مناسب برای مدلهای موجود مانند CLIP چهار ساله OpenAI و SigLIP سال گذشته گوگل عمل میکنند. کدگذار بینایی نوعی مدل هوش مصنوعی است که مواد و فایلهای بصری—به طور معمول تصاویر ثابت—را به دادههای عددی تبدیل میکند که توسط سایر مدلهای غیر بصری مانند مدلهای زبانی بزرگ (LLMs) قابل فهم است. این تحلیل و پردازش بصری برای افزایش قابلیتهای LLMها در شناسایی موضوعات، رنگها و مکانها در تصاویر تابعه، ضروری است.
OpenVision با مجوز Apache 2.0 و مجموع ۲۶ مدل مختلف با تواناییهای متنوع بین ۵.۹ میلیون تا ۶۳۲.۱ میلیون پارامتر، به توسعهدهندگان و سازندگان مدلهای هوش مصنوعی این امکان را میدهد تا از کدگذارهای خود استفاده کرده و آنها را در فرآیندهای مختلف، از تصاویر در محل کار ساخت و ساز گرفته تا دستگاههای خانگی، به کار ببرند. این مجوز قابلیت استفاده در برنامههای تجاری را نیز فراهم میکند.
مدلها توسط تیمی به سرپرستی سیحانگ شی، استادیار دانشگاه UCSC، و با همکاری دیگر پژوهشگران مانند شیانهانگ لی، یانکینگ لیو، هاوکین تو و هونگرو ژو توسعه یافتهاند. این پروژه بر پایه شیوههای آموزشی CLIP بنا شده و از دیتاست Recap-DataComp-1B که یک نسخه بازنشانی شده از مجموعه تصاویر وب با مقیاس میلیاردی است، استفاده میکند. طراحی OpenVision امکان استفاده در موارد مختلف را فراهم میسازد. مدلهای بزرگتر برای بارهای سرور با نیاز به دقت بالا و درک بصری دقیق مناسب هستند، در حالی که مدلهای کوچکتر، بعضی از آنها با ۵.۹ میلیون پارامتر، برای استقرار در محیطهای با منابع محدود بهینهسازی شدهاند.
OpenVision در یک سری benchmarkها نتایج قابل توجهی را در چندین وظیفه بینایی-زبان ارائه میدهد. با اینکه benchmarkهای سنتی مانند ImageNet و MSCOCO هنوز بخشی از مجموعه ارزیابی هستند، تیم OpenVision بر اهمیت پوشش ارزیابیهای وسیعتر تأکید دارد. آزمایشها نشان میدهند که عملکرد قوی در طبقهبندی یا بازیابی تصاویر لزوماً به موفقیت در دلایل پیچیده چندمدلی منجر نمیشود.
این مدلها برای استفاده مؤثر با مدلهای زبانی کوچک طراحی شدهاند و در یکی از آزمایشها، کدگذار بینایی با یک مدل Smol-LM با ۱۵۰ میلیون پارامتر ترکیب شد تا مدل چندرسانهای کاملی زیر ۲۵۰ میلیون پارامتر ساخته شود. این قابلیت باعث پتانسیل بالا برای استقرار در محیطهای محدود به منابع، مانند گوشیهای هوشمند مصرفی یا دوربینها و حسگرهای تولید در محل کار میشود.
OpenVision با رویکرد کاملاً باز و مدولار در توسعه کدگذارهای بینایی خود، پیامدهای استراتژیکی برای تیمهای شرکتی که در حوزه مهندسی هوش مصنوعی، ارکستراسیون، زیرساخت داده و امنیت فعالیت میکنند، به همراه دارد. برای اطلاعات بیشتر، مستندات، benchmarkها و دانلودها به صفحه پروژه OpenVision یا مخزن GitHub مراجعه کنید.