گوگل جِمینی؛ مدل تصویری هوش مصنوعی با ارتقای «Bananas» توانمندتر شد

گوگل قابلیت ویرایش تصویر چت‌بات Gemini را با مدل جدید «Gemini 2.5 Flash Image» به‌روزرسانی کرد

گوگل از عرضه نسخه جدید مدل تصویری هوش مصنوعی خود با نام Gemini 2.5 Flash Image خبر داد؛ به‌روزرسانی‌ای که از روز سه‌شنبه برای همه کاربران اپلیکیشن Gemini و همچنین توسعه‌دهندگان از طریق Gemini API، Google AI Studio و پلتفرم Vertex AI در دسترس قرار می‌گیرد. هدف این به‌روزرسانی فراهم کردن کنترل دقیق‌تر برای ویرایش عکس‌ها با استفاده از دستورات طبیعی زبان و رفع مشکلاتی است که اغلب در ابزارهای رقبا مانند تغییر رنگ لباس یا نگهداری یکپارچگی چهره و پس‌زمینه مشاهده می‌شود.

ویژگی‌ها و توانایی‌های جدید
– دقت بیشتر در ویرایش جزئیات: مدل جدید توانایی تولید و ویرایش تصاویر را طوری بهبود داده که حفظ سازگاری چهره‌ها، حیوانات و جزئیات محیطی بهتر انجام شود؛ مشکلی که بسیاری از مدل‌های رقیب در آن با اعوجاج یا تغییر ناخواسته اجزا مواجه می‌شوند.
– ترکیب چند مرجع در یک درخواست: کاربر می‌تواند چند ورودی (مثلاً عکس یک مبل، عکس اتاق نشیمن و یک پالت رنگ) را به‌صورت هم‌زمان ارائه دهد و مدل آنها را در یک رندر منسجم تلفیق کند — قابلیت مهم برای طراحی داخلی و پروژه‌های خانگی.
– تمرکز بر کاربردهای مصرفی: طراحی مدل به‌گونه‌ای است که موارد کاربرد روزمره مانند تصور تغییرات دکوراسیون خانه، بازسازی تصاویر خانوادگی یا تنظیمات تبلیغاتی سبک را ساده‌تر و قابل استفاده‌تر کند.
– تطابق با استانداردهای بنچمارک‌ها: گوگل می‌گوید این مدل در پلتفرم‌های ارزیابی مانند LMArena عملکرد برجسته‌ای داشته و در بنچمارک‌ها نتایج قابل‌توجهی ثبت کرده است.

زمینه رقابتی و تأثیر بر بازار
مدل‌های تولید تصویر به میدان رقابت بزرگان فناوری تبدیل شده‌اند. عرضه تولیدکننده تصویر بومی GPT-4o توسط OpenAI در ماه‌های اخیر موجب افزایش چشمگیر استفاده از ChatGPT شد و شرکت‌هایی مانند متا نیز برای رقابت به سراغ صدور مجوز از Midjourney رفته‌اند. به‌علاوه، شرکت‌هایی مانند Black Forest Labs با مدل‌های FLUX در بنچمارک‌ها قرار دارند. گوگل امید دارد با بهبود تجربه تصویری Gemini بتواند فاصله کاربری با رقبایی مانند OpenAI را کاهش دهد؛ هرچند آمارها نشان می‌دهد ChatGPT حدود 700 میلیون کاربر هفتگی دارد، در حالی که بر اساس گزارش اخیر ساندر پیچای، Gemini حدود 450 میلیون کاربر ماهانه دارد که نشان‌دهنده اختلاف در میزان تعامل هفتگی است.

ملاحظات اخلاقی، امنیت و کنترل محتوا
گوگل تأکید دارد که قابلیت‌های جدید در چارچوب سیاست‌های حفاظتی و اخلاقی عرضه می‌شوند. شرکت قبلاً به‌خاطر تولید تصاویر نادرست تاریخی توسط Gemini عذرخواهی و برخی قابلیت‌ها را موقتاً متوقف کرده بود؛ تجربه‌ای که منجر به بازنگری در سیاست‌ها شد. اکنون گوگل از چند سازوکار حفاظتی استفاده می‌کند:
– ممنوعیت تولید تصاویر صریح یا صحنه‌های صمیمی بدون رضایت افراد (بخش تولید محتوای مولد در شرایط خدمات گوگل).
– قرار دادن واترمارک‌های بصری روی تصاویر تولیدشده و افزودن شناسه‌هایی در فراداده (metadata) برای کمک به تشخیص محتوای تولیدشده توسط هوش مصنوعی. با این‌حال گوگل اذعان می‌کند که این شناسه‌ها ممکن است هنگام مرور سریع شبکه‌های اجتماعی توسط کاربران مشاهده نشوند.

جمع‌بندی
Gemini 2.5 Flash Image گامی مهم در بهبود قابلیت‌های تولید و ویرایش تصویر با هوش مصنوعی است که تمرکز ویژه‌ای بر حفظ یکپارچگی بصری و تجربه کاربری گذاشته است. این به‌روزرسانی هم برای کاربران عادی و هم برای توسعه‌دهندگان ابزارهای مبتنی بر تصویر امکانات جدیدی فراهم می‌کند، اما هم‌زمان چالش‌های اخلاقی و شفافیت در تشخیص محتوای ساختگی را نیز به همراه دارد. بررسی عملکرد عملی مدل در پروژه‌های واقعی و واکنش بازار در ماه‌های آینده مشخص خواهد کرد که آیا گوگل می‌تواند با این نوآوری سهم بیشتری از کاربران تولیدکننده محتوای تصویری را جذب کند یا خیر.

دستیار هوش مصنوعی

گوگل جِمینی؛ مدل تصویری هوش مصنوعی با ارتقای «Bananas» توانمندتر شد

دیدگاه‌ خود را بنویسید لغو پاسخ