Qwen-Image-Edit؛ ویرایش تصاویر با متن به‌صورت متن‌باز از تیم Qwen علی‌بابا

تیم تحقیقاتی Qwen وابسته به شرکت تجارت الکترونیک علی‌بابا روز گذشته نسخه متن‌باز مدل جدید ویرایش تصویر مبتنی بر هوش مصنوعی را منتشر کرد: Qwen-Image-Edit. این مدل که بر پایه مدل پایه 20 میلیارد پارامتری Qwen-Image توسعه یافته است، قابلیتی نزذیک به نرم‌افزارهای حرفه‌ای ویرایش تصویر مانند Photoshop را با ورودی‌ متنی فراهم می‌کند و می‌تواند از تغییرات ریز مانند حذف یک تار مو تا تبدیلات معنایی گسترده را انجام دهد.

ویژگی‌های کلیدی Qwen-Image-Edit
– پشتیبانی از ورودی‌های متنی به زبان‌های انگلیسی و چینی و توانایی ویرایش دقیق متن در تصاویر در قالب‌ها و فونت‌های متفاوت.
– معماری «دو رمزگذاری» (dual-encoding): ترکیب Qwen2.5-VL برای کنترل معنایی و یک VAE برای حفظ جزئیات بازسازی‌شده، که امکان ویرایش‌های هم‌زمان در سطح معنا و ظاهر را فراهم می‌کند.
– قابلیت‌های ویرایش معناشناختی (semantic edits) برای تغییر ساختار یا سبک تصویر (مثلاً تبدیل منظره به سبک Studio Ghibli یا چرخش و بازطراحی اشیاء) و ویرایش‌های ظاهری (appearance edits) برای تغییرات موضعی و دقیق مانند پاک‌سازی خطوط ناخواسته یا تغییر رنگ یک عنصر.
– عرضه متن‌باز تحت مجوز Apache 2.0 که امکان دانلود، نصب و اجرای مدل روی سخت‌افزار یا فضای ابری سازمان‌ها را بدون هزینه مجوز فراهم می‌کند.

نمونه‌های کاربرد و دقت
Qwen-Image-Edit نمونه‌های متعددی در دنیای واقعی نشان داده است: حذف یک تار موی پراکنده از پرتره‌ها، افزودن بازتاب یک تابلو در آب، ویرایش متون روی تصاویر پوسترها یا تی‌شرت‌ها با حفظ فونت و اندازه، و حتی تبدیل نمای شهری به سبک اسباب‌بازی لگویی. همچنین فرآیندهای زنجیره‌ای ویرایش نشان داده‌اند که این سیستم می‌تواند به‌صورت مرحله‌ای خطاهای نوشتاری در خوشنویسی چینی را اصلاح کند تا به نتیجه دقیق و قابل‌قبولی برسد — ویژگی‌ای حیاتی در پروژه‌هایی که حساسیت به جزئیات بالا است.

دسترس‌پذیری و پلتفرم‌ها
Qwen-Image-Edit اکنون در پلتفرم‌های متعددی در دسترس است:
– Qwen Chat (محیط چت شرکت Qwen) — نسخه آزمایشی با محدودیت‌های رایگان (حدود 8 ویرایش هر 12 ساعت برای کاربران رایگان).
– پلتفرم‌های متن‌باز و اشتراک‌گذاری مدل مانند Hugging Face، ModelScope و GitHub.
– از طریق API ابری علی‌بابا (Alibaba Cloud Model Studio) که امکان یکپارچه‌سازی مدل در اپلیکیشن‌ها و جریان‌های کاری سازمانی را فراهم می‌کند.

جزئیات فنی و شرایط استفاده در Alibaba Cloud
– قیمت: 0.045 دلار به ازای هر تصویر؛ همراه با اعتبار رایگان 100 تصویر که ظرف 180 روز پس از فعال‌سازی قابل استفاده است.
– منطقه ارائه سرویس اولیه: سنگاپور.
– محدودیت نرخ: 5 درخواست در ثانیه و نهایت دو تسک همزمان برای هر حساب.
– پشتیبانی از ارسال تصویر به‌صورت URL یا Base64؛ رزولوشن‌های پشتیبانی شده بین 512 تا 4096 پیکسل و حداکثر حجم فایل تا 10 مگابایت.
– تصاویر خروجی در فضای ابری Alibaba ذخیره می‌شوند و لینک دانلود آن‌ها معمولاً 24 ساعت معتبر است؛ بنابراین ذخیره نتایج بلافاصله ضروری است.

مزایا برای کسب‌وکارها و خلاقان
– کاهش هزینه‌ها: با ارائه متن‌باز تحت مجوز Apache 2.0 و امکان استقرار محلی، سازمان‌ها می‌توانند از هزینه‌های بالای نرم‌افزارهای مالکیتی مانند Photoshop بکاهند.
– تطبیق‌پذیری بالا: هم برای ایجاد محتوای خلاقانه و تولید دارایی‌های جدید (IP) مناسب است و هم برای تولید محتوای حرفه‌ای و رتوش دقیق.
– کاربرد در صنایع مختلف: تبلیغات، طراحی گرافیک، رسانه، خوشنویسی و تولید محتوا برای شبکه‌های اجتماعی و تجارت الکترونیک.

ملاحظات و محدودیت‌ها
– نسخه‌های عمومی سرویس‌های چتی معمولاً محدودیت‌های رایگان دارند و برای استفاده تجاری گسترده ممکن است نیاز به اشتراک یا پرداخت هزینه باشد.
– بسته به تنظیمات و منابع ابری، ممکن است زمان پاسخ و هزینه‌های پردازشی متفاوت باشد.
– برای پروژه‌های حساس به حریم خصوصی یا داده‌های محرمانه، توصیه می‌شود مدل را به‌صورت محلی یا در فضای ابری کنترل‌شده اجرا کنید تا از ارسال داده‌ها به سرویس‌های عمومی جلوگیری شود.

جمع‌بندی
Qwen-Image-Edit گامی مهم در جهت ادغام قابلیت‌های تولید و ویرایش تصویر مبتنی بر متن است. ترکیب دقت در رندر متون چندزبانه، معماری دو رمزگذاری و عرضه متن‌باز، این مدل را به گزینه‌ای جذاب برای شرکت‌ها و خلاقان تبدیل کرده است که به دنبال ابزارهای قدرتمند، انعطاف‌پذیر و اقتصادی برای تولید و اصلاح محتوای بصری حرفه‌ای هستند. با ادامه توسعه و بهبود این‌گونه مدل‌ها، مرزبندی بین تولید تصویر جدید و ویرایش دقیق تصاویر موجود بیش از پیش کم‌رنگ خواهد شد.

چت بات پیشرفته

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا