گوگل مدل تصویری جدیدی بهنام Gemini 2.5 Flash Image را معرفی کرد؛ مدلی که در دوره بتا میان تستکنندگان با نام «nanobanana» شناخته میشد و حالا بهصورت رسمی در اپلیکیشن Gemini عرضه میشود. این نسخه که بر پایه Gemini 2.5 Flash توسعه یافته، تمرکز ویژهای روی ویرایش تصویری با دقت بالاتر و حفظ شباهت سوژهها دارد و گزینهای جذاب برای تیمهای تولید محتوا، بازاریابی و سازمانهایی است که به نتایج حرفهای و قابل تکرار نیاز دارند.
ویژگیهای کلیدی Gemini 2.5 Flash Image
– حفظ شباهت سوژه: در ویرایشهای متوالی، مدل تلاش میکند شباهت چهرهها یا حیوانات خانگی را حفظ کند؛ مثلاً تغییر پسزمینه یا افزودن کلاه به سگ، بدون دستکاری ویژگیهای اصلی سوژه انجام میشود.
– سازگاری و ثبات بالاتر: اصلاحات جزئی معمولاً باعث تغییرات ناخواسته در چهره یا اجزای تصویر نمیشوند، موضوعی که پیشتر یکی از نقدهای رایج به مدلهای ویرایش تصویر بود.
– ویرایش چندمرحلهای (multi-turn editing): امکان ارسال درخواستهای پیدرپی برای اصلاح و بهبود تصویر تا رسیدن به نتیجه مطلوب.
– ترکیب و بلِند تصاویر: قابلیت آپلود دو یا چند تصویر و ترکیب آنها با حفظ جزئیات هر سوژه و انتقال سبکها بین تصاویر.
– انعطاف در تغییرات ظاهری: از تغییر پسزمینه و افزودن اکسسوری تا تغییر مکان سوژه در کادر، با کنترل بیشتر روی نتیجه نهایی.
دسترسپذیری و سیاستها
این مدل در اپ Gemini برای کاربران رایگان و پولی در دسترس است و تمامی تصاویر تولیدی یا ویرایشی با واترمارک SynthID گوگل برچسبگذاری میشوند تا منبع تولید محتوا مشخص و سواستفادهها کاهش یابد.
چرا این بهروزرسانی برای کسبوکارها مهم است؟
برای شرکتها و تیمهای خلاق، سرعت و دقت در تولید محتوای تصویری اهمیت دارد. Gemini 2.5 Flash Image امکان تولید و اصلاح سریع تصاویر تبلیغاتی، تصاویر محصولات، محتوای شبکههای اجتماعی و تصاویر گزارشهای داخلی را بدون نیاز به خروج از پلتفرم فراهم میکند. یکپارچگی ویرایش تصویری داخل اپ چت (Gemini) نیز روند کاری را روانتر کرده و نیاز به جابجایی بین ابزارها را کاهش میدهد.
رقابت در بازار مدلهای تصویری
معرفی این مدل در زمانی انجام شد که رقابت بین ارائهدهندگان مدلهای مولتیمدال شدت گرفته است؛ رقبایی مانند Qwen (با Qwen-Image Edit)، OpenAI (ویرایش تصویر در ChatGPT) و Adobe (ادغام Firefly در محصولات خود) نیز قابلیتهای قدرتمندی عرضه کردهاند. Gemini 2.5 Flash Image با تمرکز بر ثبات شباهتها و ویرایش چندمرحلهای میکوشد در این رقابت جایگاه قابلتوجهی پیدا کند.
ملاحظات اخلاقی و فنی
با وجود پیشرفتهای فنی، نیاز به سیاستها و ابزارهای نظارتی برای جلوگیری از سوءاستفاده، تغییر هویت افراد و تولید تصاویر گمراهکننده همچنان باقی است. برچسبگذاری SynthID گامی مهم در این راستا بهشمار میرود، اما شرکتها باید در استفاده از نتایج مدلها، به مسائل حقوقی و اخلاقی نیز توجه کنند.
تکمیلی
اطلاعات و نمونههای اولیه انتشار یافته در شبکههای اجتماعی و بازارهای بتا نشان داد که این مدل توانایی دنبال کردن دستورات پیچیده و چندمرحلهای را با دقت قابلتوجهی دارد؛ موضوعی که سبب شد پیش از معرفی رسمی، شایعات و حدس و گمانهایی درباره منشأ مدل (nanobanana) منتشر شود. اکنون با عرضه رسمی Gemini 2.5 Flash Image، سازمانها میتوانند این قابلیتها را در فرآیندهای تولید محتوای خود بهکار گیرند.
