Liquid AI مدل پایه بینایی-زبانی جدید LFM2‑VL را برای استقرار سریع و کم‌هزینه روی دستگاه‌ها معرفی کرد

Liquid AI خانواده جدیدی از مدل‌های پایه بینایی-زبانی به نام LFM2‑VL را عرضه کرده است که هدف اصلی آن اجرای کارا و با تاخیر کم روی انواع سخت‌افزار — از گوشی‌های هوشمند و لپ‌تاپ تا پوشیدنی‌ها و سیستم‌های توکار (embedded) — است. این خانواده بر پایه معماری LFM2 ساخته شده و قابلیت پردازش چندرسانه‌ای (متن + تصویر) با دقت رقابتی و سرعت استنتاج بالا را ارائه می‌دهد.

چرا LFM2‑VL مهم است؟
– بهینه برای اجرا روی دستگاه (on-device): مدل‌ها برای محیط‌های با منابع محدود طراحی شده‌اند و ادعا می‌شود در پردازش GPU تا دو برابر سریع‌تر از مدل‌های بینایی-زبانی مشابه عمل می‌کنند.
– کاهش مصرف محاسباتی و حافظه: رویکرد Linear Input‑Varying (LIV) یا تولید پویا وزن‌ها برای هر ورودی، به مدل امکان می‌دهد با محاسبات کمتر عملکرد قابل قبولی ارائه کند.
– سازگاری با تصاویر واقعی: پردازش native تا رزلوشن 512×512 بدون تحریف و با پچینگ غیرهمپوشان و اضافه کردن یک تصویر بندانگشتی (thumbnail) برای زمینه کلی، هم جزئیات ریز و هم صحنه کلی را حفظ می‌کند.

ویژگی‌های فنی کلیدی
– دو اندازه مدل: نسخه‌های 440 میلیون و 1.6 میلیارد پارامتر عرضه شده‌اند که برای سناریوهای مختلف بین سرعت و دقت تعادل برقرار می‌کنند.
– معماری ماژولار: ترکیب یک هسته زبانی، انکودر بینایی SigLIP2 NaFlex و یک پروژکتور چندرسانه‌ای. پروژکتور شامل کانکتور دو لایه MLP با مکانیزم pixel unshuffle است که تعداد توکن‌های تصویری را کاهش و توان عملیاتی را افزایش می‌دهد.
– قابلیت تنظیم پارامترها: کاربر می‌تواند حداکثر تعداد توکن‌های تصویری یا پچ‌ها را تغییر دهد تا بر اساس نیاز، بین سرعت و کیفیت تعادل برقرار کند.
– آموزش وسیع: فرایند آموزش شامل تقریباً 100 میلیارد توکن چندرسانه‌ای از مجموعه داده‌های عمومی و داده‌های مصنوعی داخلی بوده و مدل‌ها نتایج رقابتی در بنچمارک‌های مرسوم نشان داده‌اند (مثلاً LFM2‑VL‑1.6B در RealWorldQA امتیاز 65.23، InfoVQA امتیاز 58.68 و OCRBench امتیاز 742 کسب کرده است).

عملکرد استنتاج و کاربردهای عملی
در تست‌های استنتاج با کاری شامل یک تصویر 1024×1024 و یک پرامپت کوتاه، LFM2‑VL سریع‌ترین زمان پردازش GPU را در کلاس خود ثبت کرده است. این ویژگی‌ها مدل را برای کاربردهایی که نیاز به پاسخ‌دهی لحظه‌ای و حفظ حریم خصوصی دارند — مانند پردازش تصویر روی گوشی، تحلیل دوربین‌های صنعتی، ابزارهای اداری آفلاین و دستگاه‌های پوشیدنی — مناسب می‌سازد.

پلتفرم و ابزارهای توسعه
– دسترسی و سازگاری: مدل‌ها هم‌اکنون روی Hugging Face منتشر شده‌اند و همراه با نمونه کدهای فاین‌تیون در Colab عرضه شده‌اند؛ سازگاری با کتابخانه‌های Hugging Face transformers و TRL نیز فراهم است.
– اکوسیستم اجرایی: این عرضه در راستای استراتژی گسترده‌تر Liquid AI قرار دارد که شامل پلتفرم Liquid Edge AI Platform (LEAP) و اپلیکیشن Apollo است. LEAP یک SDK چندسکویی برای اجرای مدل‌های کوچک زبانی روی دستگاه‌های موبایل و توکار است و Apollo امکان تست آفلاین مدل‌ها را فراهم می‌کند تا حریم خصوصی و تاخیر کم تضمین شود.

مجوز و نکات حقوقی
مدل‌ها تحت یک مجوز سفارشی «LFM1.0» منتشر شده‌اند که Liquid AI آن را مبتنی بر اصول Apache 2.0 توصیف کرده؛ متن کامل مجوز هنوز منتشر نشده است. شرکت اعلام کرده استفاده تجاری تحت شرایط مشخصی مجاز خواهد بود و شرایط متفاوتی برای شرکت‌هایی با درآمد سالانه بالای یا زیر 10 میلیون دلار در نظر گرفته شده است.

پیشینه شرکت
Liquid AI توسط پژوهشگرانی از MIT CSAIL تأسیس شده و هدف آن توسعه معماری‌هایی فراتر از ترنسفورمرهای رایج است. نوآوری‌های این شرکت — مبتنی بر مفاهیم سیستم‌های دینامیکی، پردازش سیگنال و جبر خطی عددی — تمرکز بر ارائه عملکرد بالا با هزینه محاسباتی پایین و قابلیت انطباق زمان-حقیقی دارند.

نتیجه‌گیری
LFM2‑VL گامی مهم در دسترسی‌پذیرتر کردن مدل‌های مولتی‌مدال با عملکرد بالا برای استقرار در محیط‌های با منابع محدود است. ترکیب سرعت بالای استنتاج، قابلیت اجرا روی دستگاه و ابزارهای توسعه‌ای مانند LEAP/Apollo می‌تواند فرصت‌های جدیدی برای توسعه‌دهندگان و شرکت‌ها در زمینه اپلیکیشن‌های تصویری و چت‌مولتی‌مدال ایجاد کند.

چت با هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا