Qwen-Image-Edit؛ ویرایش تصاویر با متن بهصورت متنباز از تیم Qwen علیبابا
تیم تحقیقاتی Qwen وابسته به شرکت تجارت الکترونیک علیبابا روز گذشته نسخه متنباز مدل جدید ویرایش تصویر مبتنی بر هوش مصنوعی را منتشر کرد: Qwen-Image-Edit. این مدل که بر پایه مدل پایه 20 میلیارد پارامتری Qwen-Image توسعه یافته است، قابلیتی نزذیک به نرمافزارهای حرفهای ویرایش تصویر مانند Photoshop را با ورودی متنی فراهم میکند و میتواند از تغییرات ریز مانند حذف یک تار مو تا تبدیلات معنایی گسترده را انجام دهد.
ویژگیهای کلیدی Qwen-Image-Edit
– پشتیبانی از ورودیهای متنی به زبانهای انگلیسی و چینی و توانایی ویرایش دقیق متن در تصاویر در قالبها و فونتهای متفاوت.
– معماری «دو رمزگذاری» (dual-encoding): ترکیب Qwen2.5-VL برای کنترل معنایی و یک VAE برای حفظ جزئیات بازسازیشده، که امکان ویرایشهای همزمان در سطح معنا و ظاهر را فراهم میکند.
– قابلیتهای ویرایش معناشناختی (semantic edits) برای تغییر ساختار یا سبک تصویر (مثلاً تبدیل منظره به سبک Studio Ghibli یا چرخش و بازطراحی اشیاء) و ویرایشهای ظاهری (appearance edits) برای تغییرات موضعی و دقیق مانند پاکسازی خطوط ناخواسته یا تغییر رنگ یک عنصر.
– عرضه متنباز تحت مجوز Apache 2.0 که امکان دانلود، نصب و اجرای مدل روی سختافزار یا فضای ابری سازمانها را بدون هزینه مجوز فراهم میکند.
نمونههای کاربرد و دقت
Qwen-Image-Edit نمونههای متعددی در دنیای واقعی نشان داده است: حذف یک تار موی پراکنده از پرترهها، افزودن بازتاب یک تابلو در آب، ویرایش متون روی تصاویر پوسترها یا تیشرتها با حفظ فونت و اندازه، و حتی تبدیل نمای شهری به سبک اسباببازی لگویی. همچنین فرآیندهای زنجیرهای ویرایش نشان دادهاند که این سیستم میتواند بهصورت مرحلهای خطاهای نوشتاری در خوشنویسی چینی را اصلاح کند تا به نتیجه دقیق و قابلقبولی برسد — ویژگیای حیاتی در پروژههایی که حساسیت به جزئیات بالا است.
دسترسپذیری و پلتفرمها
Qwen-Image-Edit اکنون در پلتفرمهای متعددی در دسترس است:
– Qwen Chat (محیط چت شرکت Qwen) — نسخه آزمایشی با محدودیتهای رایگان (حدود 8 ویرایش هر 12 ساعت برای کاربران رایگان).
– پلتفرمهای متنباز و اشتراکگذاری مدل مانند Hugging Face، ModelScope و GitHub.
– از طریق API ابری علیبابا (Alibaba Cloud Model Studio) که امکان یکپارچهسازی مدل در اپلیکیشنها و جریانهای کاری سازمانی را فراهم میکند.
جزئیات فنی و شرایط استفاده در Alibaba Cloud
– قیمت: 0.045 دلار به ازای هر تصویر؛ همراه با اعتبار رایگان 100 تصویر که ظرف 180 روز پس از فعالسازی قابل استفاده است.
– منطقه ارائه سرویس اولیه: سنگاپور.
– محدودیت نرخ: 5 درخواست در ثانیه و نهایت دو تسک همزمان برای هر حساب.
– پشتیبانی از ارسال تصویر بهصورت URL یا Base64؛ رزولوشنهای پشتیبانی شده بین 512 تا 4096 پیکسل و حداکثر حجم فایل تا 10 مگابایت.
– تصاویر خروجی در فضای ابری Alibaba ذخیره میشوند و لینک دانلود آنها معمولاً 24 ساعت معتبر است؛ بنابراین ذخیره نتایج بلافاصله ضروری است.
مزایا برای کسبوکارها و خلاقان
– کاهش هزینهها: با ارائه متنباز تحت مجوز Apache 2.0 و امکان استقرار محلی، سازمانها میتوانند از هزینههای بالای نرمافزارهای مالکیتی مانند Photoshop بکاهند.
– تطبیقپذیری بالا: هم برای ایجاد محتوای خلاقانه و تولید داراییهای جدید (IP) مناسب است و هم برای تولید محتوای حرفهای و رتوش دقیق.
– کاربرد در صنایع مختلف: تبلیغات، طراحی گرافیک، رسانه، خوشنویسی و تولید محتوا برای شبکههای اجتماعی و تجارت الکترونیک.
ملاحظات و محدودیتها
– نسخههای عمومی سرویسهای چتی معمولاً محدودیتهای رایگان دارند و برای استفاده تجاری گسترده ممکن است نیاز به اشتراک یا پرداخت هزینه باشد.
– بسته به تنظیمات و منابع ابری، ممکن است زمان پاسخ و هزینههای پردازشی متفاوت باشد.
– برای پروژههای حساس به حریم خصوصی یا دادههای محرمانه، توصیه میشود مدل را بهصورت محلی یا در فضای ابری کنترلشده اجرا کنید تا از ارسال دادهها به سرویسهای عمومی جلوگیری شود.
جمعبندی
Qwen-Image-Edit گامی مهم در جهت ادغام قابلیتهای تولید و ویرایش تصویر مبتنی بر متن است. ترکیب دقت در رندر متون چندزبانه، معماری دو رمزگذاری و عرضه متنباز، این مدل را به گزینهای جذاب برای شرکتها و خلاقان تبدیل کرده است که به دنبال ابزارهای قدرتمند، انعطافپذیر و اقتصادی برای تولید و اصلاح محتوای بصری حرفهای هستند. با ادامه توسعه و بهبود اینگونه مدلها، مرزبندی بین تولید تصویر جدید و ویرایش دقیق تصاویر موجود بیش از پیش کمرنگ خواهد شد.