دانشگاه کالیفرنیا، سانتا کروز از انتشار OpenVision، یک خانواده از کدگذارهای بینایی، خبر داد. این مدل‌های جدید به عنوان یک جایگزین مناسب برای مدل‌های موجود مانند CLIP چهار ساله OpenAI و SigLIP سال گذشته گوگل عمل می‌کنند. کدگذار بینایی نوعی مدل هوش مصنوعی است که مواد و فایل‌های بصری—به طور معمول تصاویر ثابت—را به داده‌های عددی تبدیل می‌کند که توسط سایر مدل‌های غیر بصری مانند مدل‌های زبانی بزرگ (LLMs) قابل فهم است. این تحلیل و پردازش بصری برای افزایش قابلیت‌های LLMها در شناسایی موضوعات، رنگ‌ها و مکان‌ها در تصاویر تابعه، ضروری است.

OpenVision با مجوز Apache 2.0 و مجموع ۲۶ مدل مختلف با توانایی‌های متنوع بین ۵.۹ میلیون تا ۶۳۲.۱ میلیون پارامتر، به توسعه‌دهندگان و سازندگان مدل‌های هوش مصنوعی این امکان را می‌دهد تا از کدگذارهای خود استفاده کرده و آن‌ها را در فرآیندهای مختلف، از تصاویر در محل کار ساخت و ساز گرفته تا دستگاه‌های خانگی، به کار ببرند. این مجوز قابلیت استفاده در برنامه‌های تجاری را نیز فراهم می‌کند.

مدل‌ها توسط تیمی به سرپرستی سیحانگ شی، استادیار دانشگاه UCSC، و با همکاری دیگر پژوهشگران مانند شیانهانگ لی، یانکینگ لیو، هاوکین تو و هونگرو ژو توسعه یافته‌اند. این پروژه بر پایه شیوه‌های آموزشی CLIP بنا شده و از دیتاست Recap-DataComp-1B که یک نسخه بازنشانی شده از مجموعه تصاویر وب با مقیاس میلیاردی است، استفاده می‌کند. طراحی OpenVision امکان استفاده در موارد مختلف را فراهم می‌سازد. مدل‌های بزرگ‌تر برای بارهای سرور با نیاز به دقت بالا و درک بصری دقیق مناسب هستند، در حالی که مدل‌های کوچک‌تر، بعضی از آن‌ها با ۵.۹ میلیون پارامتر، برای استقرار در محیط‌های با منابع محدود بهینه‌سازی شده‌اند.

OpenVision در یک سری benchmark‌ها نتایج قابل توجهی را در چندین وظیفه بینایی-زبان ارائه می‌دهد. با اینکه benchmark‌های سنتی مانند ImageNet و MSCOCO هنوز بخشی از مجموعه ارزیابی هستند، تیم OpenVision بر اهمیت پوشش ارزیابی‌های وسیع‌تر تأکید دارد. آزمایش‌ها نشان می‌دهند که عملکرد قوی در طبقه‌بندی یا بازیابی تصاویر لزوماً به موفقیت در دلایل پیچیده چندمدلی منجر نمی‌شود.

این مدل‌ها برای استفاده مؤثر با مدل‌های زبانی کوچک طراحی شده‌اند و در یکی از آزمایش‌ها، کدگذار بینایی با یک مدل Smol-LM با ۱۵۰ میلیون پارامتر ترکیب شد تا مدل چندرسانه‌ای کاملی زیر ۲۵۰ میلیون پارامتر ساخته شود. این قابلیت باعث پتانسیل بالا برای استقرار در محیط‌های محدود به منابع، مانند گوشی‌های هوشمند مصرفی یا دوربین‌ها و حسگرهای تولید در محل کار می‌شود.

OpenVision با رویکرد کاملاً باز و مدولار در توسعه کدگذارهای بینایی خود، پیامدهای استراتژیکی برای تیم‌های شرکتی که در حوزه مهندسی هوش مصنوعی، ارکستراسیون، زیرساخت داده و امنیت فعالیت می‌کنند، به همراه دارد. برای اطلاعات بیشتر، مستندات، benchmark‌ها و دانلودها به صفحه پروژه OpenVision یا مخزن GitHub مراجعه کنید.

ساخت تصویر با هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا