گوگل قابلیت ویرایش تصویر چتبات Gemini را با مدل جدید «Gemini 2.5 Flash Image» بهروزرسانی کرد
گوگل از عرضه نسخه جدید مدل تصویری هوش مصنوعی خود با نام Gemini 2.5 Flash Image خبر داد؛ بهروزرسانیای که از روز سهشنبه برای همه کاربران اپلیکیشن Gemini و همچنین توسعهدهندگان از طریق Gemini API، Google AI Studio و پلتفرم Vertex AI در دسترس قرار میگیرد. هدف این بهروزرسانی فراهم کردن کنترل دقیقتر برای ویرایش عکسها با استفاده از دستورات طبیعی زبان و رفع مشکلاتی است که اغلب در ابزارهای رقبا مانند تغییر رنگ لباس یا نگهداری یکپارچگی چهره و پسزمینه مشاهده میشود.
ویژگیها و تواناییهای جدید
– دقت بیشتر در ویرایش جزئیات: مدل جدید توانایی تولید و ویرایش تصاویر را طوری بهبود داده که حفظ سازگاری چهرهها، حیوانات و جزئیات محیطی بهتر انجام شود؛ مشکلی که بسیاری از مدلهای رقیب در آن با اعوجاج یا تغییر ناخواسته اجزا مواجه میشوند.
– ترکیب چند مرجع در یک درخواست: کاربر میتواند چند ورودی (مثلاً عکس یک مبل، عکس اتاق نشیمن و یک پالت رنگ) را بهصورت همزمان ارائه دهد و مدل آنها را در یک رندر منسجم تلفیق کند — قابلیت مهم برای طراحی داخلی و پروژههای خانگی.
– تمرکز بر کاربردهای مصرفی: طراحی مدل بهگونهای است که موارد کاربرد روزمره مانند تصور تغییرات دکوراسیون خانه، بازسازی تصاویر خانوادگی یا تنظیمات تبلیغاتی سبک را سادهتر و قابل استفادهتر کند.
– تطابق با استانداردهای بنچمارکها: گوگل میگوید این مدل در پلتفرمهای ارزیابی مانند LMArena عملکرد برجستهای داشته و در بنچمارکها نتایج قابلتوجهی ثبت کرده است.
زمینه رقابتی و تأثیر بر بازار
مدلهای تولید تصویر به میدان رقابت بزرگان فناوری تبدیل شدهاند. عرضه تولیدکننده تصویر بومی GPT-4o توسط OpenAI در ماههای اخیر موجب افزایش چشمگیر استفاده از ChatGPT شد و شرکتهایی مانند متا نیز برای رقابت به سراغ صدور مجوز از Midjourney رفتهاند. بهعلاوه، شرکتهایی مانند Black Forest Labs با مدلهای FLUX در بنچمارکها قرار دارند. گوگل امید دارد با بهبود تجربه تصویری Gemini بتواند فاصله کاربری با رقبایی مانند OpenAI را کاهش دهد؛ هرچند آمارها نشان میدهد ChatGPT حدود 700 میلیون کاربر هفتگی دارد، در حالی که بر اساس گزارش اخیر ساندر پیچای، Gemini حدود 450 میلیون کاربر ماهانه دارد که نشاندهنده اختلاف در میزان تعامل هفتگی است.
ملاحظات اخلاقی، امنیت و کنترل محتوا
گوگل تأکید دارد که قابلیتهای جدید در چارچوب سیاستهای حفاظتی و اخلاقی عرضه میشوند. شرکت قبلاً بهخاطر تولید تصاویر نادرست تاریخی توسط Gemini عذرخواهی و برخی قابلیتها را موقتاً متوقف کرده بود؛ تجربهای که منجر به بازنگری در سیاستها شد. اکنون گوگل از چند سازوکار حفاظتی استفاده میکند:
– ممنوعیت تولید تصاویر صریح یا صحنههای صمیمی بدون رضایت افراد (بخش تولید محتوای مولد در شرایط خدمات گوگل).
– قرار دادن واترمارکهای بصری روی تصاویر تولیدشده و افزودن شناسههایی در فراداده (metadata) برای کمک به تشخیص محتوای تولیدشده توسط هوش مصنوعی. با اینحال گوگل اذعان میکند که این شناسهها ممکن است هنگام مرور سریع شبکههای اجتماعی توسط کاربران مشاهده نشوند.
جمعبندی
Gemini 2.5 Flash Image گامی مهم در بهبود قابلیتهای تولید و ویرایش تصویر با هوش مصنوعی است که تمرکز ویژهای بر حفظ یکپارچگی بصری و تجربه کاربری گذاشته است. این بهروزرسانی هم برای کاربران عادی و هم برای توسعهدهندگان ابزارهای مبتنی بر تصویر امکانات جدیدی فراهم میکند، اما همزمان چالشهای اخلاقی و شفافیت در تشخیص محتوای ساختگی را نیز به همراه دارد. بررسی عملکرد عملی مدل در پروژههای واقعی و واکنش بازار در ماههای آینده مشخص خواهد کرد که آیا گوگل میتواند با این نوآوری سهم بیشتری از کاربران تولیدکننده محتوای تصویری را جذب کند یا خیر.
