قابلیتهای تصویرسازی مولتیمدال مدل GPT-4o اکنون برای کاربران ChatGPT فعال شد
شرکت OpenAI با رونمایی از قابلیت جدید تصویرسازی مولتیمدال مدل GPT-4o، گام دیگری در مسیر ارتقاء هوش مصنوعی برداشته است. این ویژگی برای تمامی کاربران ChatGPT در سطوح Free، Plus، Pro و Team فعال شده و به زودی در دسترس کاربران Enterprise، Edu و API نیز قرار خواهد گرفت. این تحول درست یک سال پس از انتشار مدل multimodal اولیه از سوی OpenAI صورت گرفته و نشاندهنده پیشرفت قابل توجه در زمینه هوش مصنوعی چندرسانهای است.
ادغام قابلیت تصویرسازی در GPT-4o: تحولی بزرگ در مدلهای مولتیمدیا
بر خلاف مدل DALL-E 3 که پیشتر در ChatGPT برای تولید تصاویر مورد استفاده قرار میگرفت، ویژگی جدید تصویرسازی مدل GPT-4o بخشی یکپارچه از همین مدل است که توانایی تولید متن، کد و تصاویر را به صورت همزمان دارد. OpenAI این مدل را به گونهای آموزش داده که بتواند اشکال مختلف دادهها را به بهترین شکل ممکن درک کند. نتیجه این ساختار آموزشی، تولید تصاویر با کیفیت بسیار بالا، جزئیات دقیقتر و تطابق کامل با درخواستهای کاربران است. علاوه بر این، کاربران میتوانند در طی مکالمه با مدل، تغییرات جزئی یا بنیادی در تصاویر ایجاد کنند و مدل به سرعت این تغییرات را اعمال کرده و نتایج جدیدی ارائه دهد.
به گفته کاربران اولیه، کیفیت تصاویر تولیدی این مدل بینظیر بوده و جزئیات آنها به طور قابل توجهی طبیعیتر و واقعگرایانهتر از مدلهای پیشین است. یکی از کاربران این قابلیت را “تحولی جنونآمیز” توصیف کرده است.
پیشنمایش قابلیتهای جدید توسط OpenAI و واکنشهای عمومی
قابلیت تصویرسازی مولتیمدال GPT-4o در ابتدا توسط Greg Brockman، رئیس شرکت OpenAI، در ماه می 2024 پیشنمایی شده بود. با این حال، دلایل تاخیر در عرضه نهایی این قابلیت برای عموم همچنان نامشخص است. انتشار این قابلیت درست پس از معرفی ویژگی مشابه توسط Google AI Studio در مدل آزمایشی Gemini 2، رقابت میان غولهای هوش مصنوعی را بیش از پیش برجسته کرده است.
لازم به ذکر است که OpenAI هنوز اطلاعات دقیقی درباره دادههایی که برای آموزش قابلیتهای تصویرسازی GPT-4o استفاده شدهاند، منتشر نکرده است. با توجه به سابقه این شرکت و سایر ارائهدهندگان مدلهای هوش مصنوعی، احتمال استفاده از تصاویر استخراجشده از سطح وب، برخی از آنها با حقوق مالکیت معنوی، کاملاً بالا است. این موضوع ممکن است موجب جنجالهایی در میان هنرمندان و صاحبان آثار شود.
کاربردهای عملی و ویژگیهای برجسته GPT-4o
قابلیتهای تصویرسازی GPT-4o علاوه بر تولید تصاویر طبیعی و جذاب، از امکانات متنوعی برخوردار است. کاربران میتوانند ویژگیهای مدنظر خود از قبیل نسبت ابعاد، رنگها با استفاده از کدهای HEX یا شفافیت را مشخص کرده و مدل طی کمتر از یک دقیقه، تصویر موردنظر را تولید کند. همین ویژگیها امکان ایجاد تصاویر سفارشی و دقیق برای اهداف تجاری، خلاقانه و آموزشی را فراهم کردهاند.
همچنین، قابلیتهای این مدل در پلتفرم ویدئوسازی Sora که توسط OpenAI معرفی شده، ادغام شده است و پتانسیل مولتیمدال این ابزار را به سطح دیگری ارتقاء میدهد.
چالشها و اقدامات مسئولانه OpenAI
با وجود دستاوردهای قابل توجه GPT-4o، این مدل هنوز با برخی چالشهای شناختهشده مواجه است، از جمله دقت در برخی سناریوهای پیچیده یا اجتناب از تولید محتوای نامناسب. OpenAI به طور فعال در حال بهبود این جوانب است و اقدامات حفاظتی جدی برای جلوگیری از سوءاستفاده از این فناوری اتخاذ کرده است.
تمامی تصاویر تولیدشده توسط GPT-4o شامل متادیتاهای C2PA هستند و امکان راستیآزمایی منشأ آنها به کاربران ارائه میشود. علاوه بر این، یک ابزار جستجوی داخلی توسط OpenAI طراحی شده تا بتواند تصاویر تولیدشده توسط هوش مصنوعی را شناسایی کند. محدودیتهایی نیز برای جلوگیری از تولید تصاویر مخرب، گمراهکننده یا نقضکننده حقوق افراد اعمال شده است.
نقطه عطفی در فناوری هوش مصنوعی بصری
سم آلتمن، مدیرعامل OpenAI، عرضه این قابلیت را “یک نقطه اوج جدید برای آزادی خلاقیت” توصیف کرده و تاکید کرده است که کاربران اکنون میتوانند طیف گستردهای از تصاویر را تولید کنند. این شرکت نظارت دقیقی بر نحوه استفاده از این مدل داشته و بر اساس بازخورد کاربران، به بهبود قابلیتهای آن ادامه خواهد داد.
مدل GPT-4o با قابلیتهای تصویرسازی پیشرفته، گامی بزرگ در جهت تبدیل فناوری تولید تصویر از متن به ابزاری اصلی برای ارتباطات، خلاقیت و بهرهوری برداشته است. این پیشرفت میتواند زمینهساز تحولاتی اساسی در صنایع مختلف، از طراحی گرافیک تا آموزش و بازاریابی باشد.
برای اطلاع از آخرین اخبار و تحلیلهای مرتبط با هوش مصنوعی، به بخش خبرنامههای سایت بینا ویرا مراجعه کنید.