شگفت‌انگیز: OpenAI از قابلیت تولید تصویر در GPT-4o رونمایی کرد و کاربران را شگفت‌زده کرد

قابلیت‌های تصویرسازی مولتی‌مدال مدل GPT-4o اکنون برای کاربران ChatGPT فعال شد

شرکت OpenAI با رونمایی از قابلیت جدید تصویرسازی مولتی‌مدال مدل GPT-4o، گام دیگری در مسیر ارتقاء هوش مصنوعی برداشته است. این ویژگی برای تمامی کاربران ChatGPT در سطوح Free، Plus، Pro و Team فعال شده و به زودی در دسترس کاربران Enterprise، Edu و API نیز قرار خواهد گرفت. این تحول درست یک سال پس از انتشار مدل multimodal اولیه از سوی OpenAI صورت گرفته و نشان‌دهنده پیشرفت قابل توجه در زمینه هوش مصنوعی چندرسانه‌ای است.

ادغام قابلیت تصویرسازی در GPT-4o: تحولی بزرگ در مدل‌های مولتی‌مدیا

بر خلاف مدل DALL-E 3 که پیش‌تر در ChatGPT برای تولید تصاویر مورد استفاده قرار می‌گرفت، ویژگی جدید تصویرسازی مدل GPT-4o بخشی یکپارچه از همین مدل است که توانایی تولید متن، کد و تصاویر را به صورت همزمان دارد. OpenAI این مدل را به گونه‌ای آموزش داده که بتواند اشکال مختلف داده‌ها را به بهترین شکل ممکن درک کند. نتیجه این ساختار آموزشی، تولید تصاویر با کیفیت بسیار بالا، جزئیات دقیق‌تر و تطابق کامل با درخواست‌های کاربران است. علاوه بر این، کاربران می‌توانند در طی مکالمه با مدل، تغییرات جزئی یا بنیادی در تصاویر ایجاد کنند و مدل به سرعت این تغییرات را اعمال کرده و نتایج جدیدی ارائه دهد.

به گفته کاربران اولیه، کیفیت تصاویر تولیدی این مدل بی‌نظیر بوده و جزئیات آن‌ها به طور قابل توجهی طبیعی‌تر و واقع‌گرایانه‌تر از مدل‌های پیشین است. یکی از کاربران این قابلیت را “تحولی جنون‌آمیز” توصیف کرده است.

پیش‌نمایش قابلیت‌های جدید توسط OpenAI و واکنش‌های عمومی

قابلیت تصویرسازی مولتی‌مدال GPT-4o در ابتدا توسط Greg Brockman، رئیس شرکت OpenAI، در ماه می 2024 پیش‌نمایی شده بود. با این حال، دلایل تاخیر در عرضه نهایی این قابلیت برای عموم همچنان نامشخص است. انتشار این قابلیت درست پس از معرفی ویژگی مشابه توسط Google AI Studio در مدل آزمایشی Gemini 2، رقابت میان غول‌های هوش مصنوعی را بیش از پیش برجسته کرده است.

لازم به ذکر است که OpenAI هنوز اطلاعات دقیقی درباره داده‌هایی که برای آموزش قابلیت‌های تصویرسازی GPT-4o استفاده شده‌اند، منتشر نکرده است. با توجه به سابقه این شرکت و سایر ارائه‌دهندگان مدل‌های هوش مصنوعی، احتمال استفاده از تصاویر استخراج‌شده از سطح وب، برخی از آن‌ها با حقوق مالکیت معنوی، کاملاً بالا است. این موضوع ممکن است موجب جنجال‌هایی در میان هنرمندان و صاحبان آثار شود.

کاربردهای عملی و ویژگی‌های برجسته GPT-4o

قابلیت‌های تصویرسازی GPT-4o علاوه بر تولید تصاویر طبیعی و جذاب، از امکانات متنوعی برخوردار است. کاربران می‌توانند ویژگی‌های مدنظر خود از قبیل نسبت ابعاد، رنگ‌ها با استفاده از کدهای HEX یا شفافیت را مشخص کرده و مدل طی کمتر از یک دقیقه، تصویر موردنظر را تولید کند. همین ویژگی‌ها امکان ایجاد تصاویر سفارشی و دقیق برای اهداف تجاری، خلاقانه و آموزشی را فراهم کرده‌اند.

همچنین، قابلیت‌های این مدل در پلتفرم ویدئوسازی Sora که توسط OpenAI معرفی شده، ادغام شده است و پتانسیل مولتی‌مدال این ابزار را به سطح دیگری ارتقاء می‌دهد.

چالش‌ها و اقدامات مسئولانه OpenAI

با وجود دستاوردهای قابل توجه GPT-4o، این مدل هنوز با برخی چالش‌های شناخته‌شده مواجه است، از جمله دقت در برخی سناریوهای پیچیده یا اجتناب از تولید محتوای نامناسب. OpenAI به طور فعال در حال بهبود این جوانب است و اقدامات حفاظتی جدی برای جلوگیری از سوءاستفاده از این فناوری اتخاذ کرده است.

تمامی تصاویر تولیدشده توسط GPT-4o شامل متادیتاهای C2PA هستند و امکان راستی‌آزمایی منشأ آن‌ها به کاربران ارائه می‌شود. علاوه بر این، یک ابزار جستجوی داخلی توسط OpenAI طراحی شده تا بتواند تصاویر تولید‌شده توسط هوش مصنوعی را شناسایی کند. محدودیت‌هایی نیز برای جلوگیری از تولید تصاویر مخرب، گمراه‌کننده یا نقض‌کننده حقوق افراد اعمال شده است.

نقطه عطفی در فناوری هوش مصنوعی بصری

سم آلتمن، مدیرعامل OpenAI، عرضه این قابلیت را “یک نقطه اوج جدید برای آزادی خلاقیت” توصیف کرده و تاکید کرده است که کاربران اکنون می‌توانند طیف گسترده‌ای از تصاویر را تولید کنند. این شرکت نظارت دقیقی بر نحوه استفاده از این مدل داشته و بر اساس بازخورد کاربران، به بهبود قابلیت‌های آن ادامه خواهد داد.

مدل GPT-4o با قابلیت‌های تصویرسازی پیشرفته، گامی بزرگ در جهت تبدیل فناوری تولید تصویر از متن به ابزاری اصلی برای ارتباطات، خلاقیت و بهره‌وری برداشته است. این پیشرفت می‌تواند زمینه‌ساز تحولاتی اساسی در صنایع مختلف، از طراحی گرافیک تا آموزش و بازاریابی باشد.

برای اطلاع از آخرین اخبار و تحلیل‌های مرتبط با هوش مصنوعی، به بخش خبرنامه‌های سایت بینا ویرا مراجعه کنید.

دستیار صوتی هوش مصنوعی

شگفت‌انگیز: OpenAI از قابلیت تولید تصویر در GPT-4o رونمایی کرد و کاربران را شگفت‌زده کرد

دیدگاه‌ خود را بنویسید لغو پاسخ