Liquid AI مدل پایه بینایی-زبانی جدید LFM2‑VL را برای استقرار سریع و کمهزینه روی دستگاهها معرفی کرد
Liquid AI خانواده جدیدی از مدلهای پایه بینایی-زبانی به نام LFM2‑VL را عرضه کرده است که هدف اصلی آن اجرای کارا و با تاخیر کم روی انواع سختافزار — از گوشیهای هوشمند و لپتاپ تا پوشیدنیها و سیستمهای توکار (embedded) — است. این خانواده بر پایه معماری LFM2 ساخته شده و قابلیت پردازش چندرسانهای (متن + تصویر) با دقت رقابتی و سرعت استنتاج بالا را ارائه میدهد.
چرا LFM2‑VL مهم است؟
– بهینه برای اجرا روی دستگاه (on-device): مدلها برای محیطهای با منابع محدود طراحی شدهاند و ادعا میشود در پردازش GPU تا دو برابر سریعتر از مدلهای بینایی-زبانی مشابه عمل میکنند.
– کاهش مصرف محاسباتی و حافظه: رویکرد Linear Input‑Varying (LIV) یا تولید پویا وزنها برای هر ورودی، به مدل امکان میدهد با محاسبات کمتر عملکرد قابل قبولی ارائه کند.
– سازگاری با تصاویر واقعی: پردازش native تا رزلوشن 512×512 بدون تحریف و با پچینگ غیرهمپوشان و اضافه کردن یک تصویر بندانگشتی (thumbnail) برای زمینه کلی، هم جزئیات ریز و هم صحنه کلی را حفظ میکند.
ویژگیهای فنی کلیدی
– دو اندازه مدل: نسخههای 440 میلیون و 1.6 میلیارد پارامتر عرضه شدهاند که برای سناریوهای مختلف بین سرعت و دقت تعادل برقرار میکنند.
– معماری ماژولار: ترکیب یک هسته زبانی، انکودر بینایی SigLIP2 NaFlex و یک پروژکتور چندرسانهای. پروژکتور شامل کانکتور دو لایه MLP با مکانیزم pixel unshuffle است که تعداد توکنهای تصویری را کاهش و توان عملیاتی را افزایش میدهد.
– قابلیت تنظیم پارامترها: کاربر میتواند حداکثر تعداد توکنهای تصویری یا پچها را تغییر دهد تا بر اساس نیاز، بین سرعت و کیفیت تعادل برقرار کند.
– آموزش وسیع: فرایند آموزش شامل تقریباً 100 میلیارد توکن چندرسانهای از مجموعه دادههای عمومی و دادههای مصنوعی داخلی بوده و مدلها نتایج رقابتی در بنچمارکهای مرسوم نشان دادهاند (مثلاً LFM2‑VL‑1.6B در RealWorldQA امتیاز 65.23، InfoVQA امتیاز 58.68 و OCRBench امتیاز 742 کسب کرده است).
عملکرد استنتاج و کاربردهای عملی
در تستهای استنتاج با کاری شامل یک تصویر 1024×1024 و یک پرامپت کوتاه، LFM2‑VL سریعترین زمان پردازش GPU را در کلاس خود ثبت کرده است. این ویژگیها مدل را برای کاربردهایی که نیاز به پاسخدهی لحظهای و حفظ حریم خصوصی دارند — مانند پردازش تصویر روی گوشی، تحلیل دوربینهای صنعتی، ابزارهای اداری آفلاین و دستگاههای پوشیدنی — مناسب میسازد.
پلتفرم و ابزارهای توسعه
– دسترسی و سازگاری: مدلها هماکنون روی Hugging Face منتشر شدهاند و همراه با نمونه کدهای فاینتیون در Colab عرضه شدهاند؛ سازگاری با کتابخانههای Hugging Face transformers و TRL نیز فراهم است.
– اکوسیستم اجرایی: این عرضه در راستای استراتژی گستردهتر Liquid AI قرار دارد که شامل پلتفرم Liquid Edge AI Platform (LEAP) و اپلیکیشن Apollo است. LEAP یک SDK چندسکویی برای اجرای مدلهای کوچک زبانی روی دستگاههای موبایل و توکار است و Apollo امکان تست آفلاین مدلها را فراهم میکند تا حریم خصوصی و تاخیر کم تضمین شود.
مجوز و نکات حقوقی
مدلها تحت یک مجوز سفارشی «LFM1.0» منتشر شدهاند که Liquid AI آن را مبتنی بر اصول Apache 2.0 توصیف کرده؛ متن کامل مجوز هنوز منتشر نشده است. شرکت اعلام کرده استفاده تجاری تحت شرایط مشخصی مجاز خواهد بود و شرایط متفاوتی برای شرکتهایی با درآمد سالانه بالای یا زیر 10 میلیون دلار در نظر گرفته شده است.
پیشینه شرکت
Liquid AI توسط پژوهشگرانی از MIT CSAIL تأسیس شده و هدف آن توسعه معماریهایی فراتر از ترنسفورمرهای رایج است. نوآوریهای این شرکت — مبتنی بر مفاهیم سیستمهای دینامیکی، پردازش سیگنال و جبر خطی عددی — تمرکز بر ارائه عملکرد بالا با هزینه محاسباتی پایین و قابلیت انطباق زمان-حقیقی دارند.
نتیجهگیری
LFM2‑VL گامی مهم در دسترسیپذیرتر کردن مدلهای مولتیمدال با عملکرد بالا برای استقرار در محیطهای با منابع محدود است. ترکیب سرعت بالای استنتاج، قابلیت اجرا روی دستگاه و ابزارهای توسعهای مانند LEAP/Apollo میتواند فرصتهای جدیدی برای توسعهدهندگان و شرکتها در زمینه اپلیکیشنهای تصویری و چتمولتیمدال ایجاد کند.