ارتقای قابلیت تولید تصویر ChatGPT: تحول جدید هوش مصنوعی در بینایی ماشین

ارتقای قابلیت تصویرسازی ChatGPT با استفاده از مدل GPT-4o توسط OpenAI

OpenAI در یک رویداد زنده روز سه‌شنبه، نخستین به‌روزرسانی بزرگ قابلیت‌های تصویرسازی ChatGPT را پس از گذشت یک سال اعلام کرد. سم آلتمن، مدیرعامل OpenAI، خبر داد که اکنون ChatGPT با بهره‌گیری از مدل قدرتمند GPT-4o توانایی ایجاد و ویرایش تصاویر و عکس‌ها را به‌صورت بومی به دست آورده است.

تا پیش از این، مدل GPT-4o صرفاً به تولید و ویرایش متن محدود بود و قابلیت تصویرسازی را نداشت. اما از امروز، این ویژگی برای مشترکان پلن حرفه‌ای OpenAI که هزینه اشتراک آن ۲۰۰ دلار در ماه است، در دسترس قرار گرفته است. علاوه بر این، ویژگی تصویرسازی در محصولات دیگری مثل Sora، که ابزار تولید ویدئو مبتنی بر هوش مصنوعی از OpenAI است، نیز فعال شده است. بر اساس اعلام این شرکت، این قابلیت به‌زودی برای کاربران پلن رایگان و Plus در دسترس خواهد بود و همچنین توسعه‌دهندگانی که از سرویس API این شرکت استفاده می‌کنند، امکان بهره‌برداری از این ویژگی را خواهند داشت.

دقت و جزئیات بالا با GPT-4o
مدل GPT-4o در مقایسه با مدل تصویرسازی قبلی، DALL-E 3، دارای عملکرد دقیق‌تر و جزئیات بیشتری است. این بهبود به لطف زمان بیشتری که مدل GPT-4o صرف پردازش تصویر می‌کند حاصل شده است؛ به همین دلیل، خروجی‌های آن از وضوح و کیفیت بالاتری برخوردار هستند. یکی از قابلیت‌های چشمگیر این مدل، توانایی ویرایش تصاویر موجود است؛ از افزودن جزئیات به پیش‌زمینه یا پس‌زمینه گرفته تا تغییرات کلی در ترکیب تصویر یا بازسازی بخش‌های خاص.

OpenAI توضیح داده است که برای ارتقای قابلیت تصویرسازی GPT-4o، این مدل بر اساس داده‌های عمومی و همچنین داده‌های انحصاری حاصل از مشارکت با شرکت‌هایی مانند Shutterstock آموزش داده شده است. سیستم‌های هوش مصنوعی تولیدکننده محتوا معمولاً اطلاعات مربوط به داده‌های آموزشی خود را محرمانه نگه می‌دارند، زیرا این موضوع می‌تواند منجر به مزایای رقابتی یا خطراتی نظیر دعاوی حقوقی مرتبط با مالکیت معنوی شود.

حفظ حقوق هنرمندان و مدیریت داده‌ها
برد لایتکپ، مدیر ارشد عملیاتی OpenAI، در گفتگو با وال‌استریت ژورنال تاکید کرد که شرکت سیاست‌های مشخصی برای احترام به حقوق هنرمندان در ساخت تصاویر خروجی در نظر گرفته است. طبق اعلام وی، OpenAI از ایجاد تصاویری که به‌طور مستقیم تقلیدی از آثار هنری هنرمندان زنده باشد جلوگیری می‌کند. علاوه بر این، فرم‌هایی برای هنرمندان در دسترس قرار گرفته است تا بتوانند درخواست حذف آثار خود از مجموعه داده‌های آموزشی این شرکت را ثبت کنند. همچنین، OpenAI تعهد داده است که به درخواست صاحبان سایت‌ها مبنی بر جلوگیری از جمع‌آوری داده‌های آموزشی از طریق ابزارهای وب‌خزنده احترام بگذارد.

رقابت با گوگل و مدل Gemini 2.0 Flash
این به‌روزرسانی مهم OpenAI در زمینه تصویرسازی درست پس از معرفی قابلیت تصویرسازی بومی Google با مدل Gemini 2.0 Flash اتفاق افتاده است. قابلیت تصویرسازی گوگل به‌سرعت در شبکه‌های اجتماعی مورد توجه قرار گرفت، اما به دلیل نقص در محافظت از حقوق مالکیت معنوی، نظرات متفاوتی دریافت کرد. به‌عنوان مثال، کاربران توانستند واترمارک‌ها را حذف کنند یا تصاویر مربوط به شخصیت‌های دارای کپی‌رایت ایجاد کنند که چالش‌هایی قانونی به همراه داشت.

این پیشرفت در قابلیت‌های ChatGPT نشان‌دهنده گام مهمی در جهت افزایش توانایی‌های مدل‌های هوش مصنوعی برای ترکیب داده‌های متفاوت از نوشتار و تصویر است. شرکت OpenAI با ارائه ویژگی‌های جدید خود همواره به حفظ تعهدات اخلاقی و ارتقای کیفیت خدمات خود توجه دارد.

برای اطلاع بیشتر از اخبار مرتبط و آخرین تحولات دنیای هوش مصنوعی، همراه ما در سایت بینا ویرا باشید.

دستیار هوش مصنوعی

ارتقای قابلیت تولید تصویر ChatGPT: تحول جدید هوش مصنوعی در بینایی ماشین

دیدگاه‌ خود را بنویسید لغو پاسخ