پروژه «جینی» دیپ‌مایند: دسترسی محدود آزمایشی به تولید جهان‌های بازی از متن و تصویر

دیپ‌مایند (DeepMind) دسترسی محدود به Project Genie، ابزار نوآورانه‌اش برای خلق جهان‌های تعاملی مبتنی بر متن یا تصویر، را باز کرده است. از روز پنج‌شنبه، مشترکین سرویس Google AI Ultra در ایالات متحده می‌توانند به این نمونه پژوهشی آزمایشی دسترسی پیدا کنند؛ گامی که با هدف جمع‌آوری بازخورد کاربران و داده‌های آموزشی صورت گرفته است.

چه چیز جدید است؟ — معرفی و اهداف
Project Genie ترکیبی از چند مدل پیشرفته است: مدل جهان Genie 3، مدل تولید تصویر Nano Banana Pro و قابلیت‌هایی از Gemini. دیپ‌مایند این پروژه را بخشی از تلاش گسترده‌تر برای توسعه «مدل‌های جهان» معرفی می‌کند؛ سیستم‌هایی که نمایشی داخلی از یک محیط می‌سازند، آینده را پیش‌بینی و برای برنامه‌ریزی و کنترل عامل‌ها (مثل ربات‌ها) استفاده می‌شوند. بسیاری از پژوهشگران حوزه هوش مصنوعی، از جمله تیم‌های دیپ‌مایند، مدل‌های جهان را گامی مهم در مسیر رسیدن به هوش مصنوعی عمومی (AGI) می‌دانند. در کوتاه‌مدت اما کاربردهای اولیه عموماً در بازی‌های ویدیویی و سرگرمی و سپس شبیه‌سازی برای آموزش عامل‌های مجسم (ربات‌ها) دیده می‌شود.

نحوه کار Project Genie — از طرح اولیه تا جهان قابل کاوش
– شروع با «اسکچ جهان»: کاربر با دادن پرامپت متنی محیط و شخصیت اصلی، اسکچ یا طرح اولیه را می‌سازد.
– تولید تصویر توسط Nano Banana Pro: از پرامپت تصویر ایجاد می‌شود که کاربر می‌تواند آن را ویرایش کند.
– تبدیل تصویر به جهان تعاملی: Genie از تصویر به‌عنوان نقطه آغاز استفاده می‌کند و در چند ثانیه جهان قابل کاوشی می‌سازد.
– حالت‌های گشت‌وگذار: بازیکن می‌تواند از دید اول‌شخص یا سوم‌شخص در جهان حرکت کند، دنیاها را ریمیکس کند، از گالری منتخب ایده بگیرد یا با ابزار رندومایزر الهام بگیرد. امکان دانلود ویدیوهای کوتاه از گشت‌وگذار نیز فراهم است.

محدودیت‌ها و دلایل فنی
دیپ‌مایند فعلاً زمان هر نشست تولید و گشت‌وگذار را به 60 ثانیه محدود کرده است که علت اصلی آن مصرف بالای محاسباتی مدل‌های auto-regressive مانند Genie 3 است. به گفته تیم، هر نشست نیازمند تخصیص اختصاصی چیپ است و افزایش طول جلسات، منابع را به‌شدت افزایش می‌دهد. این محدودیت به دیپ‌مایند اجازه می‌دهد تعداد بیشتری از کاربران را در دوره آزمایشی پوشش دهد.

عملکرد و تجربه کاربری — نقاط قوت و ضعف
– توانایی‌ها: مدل در خلق جهان‌های هنری و سبک‌های تصویری مانند آبرنگ، انیمه یا کارتون کلاسیک بسیار موفق است و می‌تواند فضاهای خیال‌انگیز و منظرهای بصری قوی بسازد.
– ضعف‌ها: در ایجاد دنیاهای فوتورئالیستی یا سینمایی عملکرد ضعیف‌تر است و خروجی‌ها گاه ساختار و حس بازی‌محور دارند تا واقع‌گرایانه. همچنین وقتی از عکس‌های واقعی به‌عنوان پایه استفاده می‌شود، نتایج گاهی ساختگی یا نامنطبق با واقعیت خواهند بود.
– تعاملات: میزان تعامل اشیاء و شخصیت‌ها هنوز محدود است — شخصیت‌ها گاهی از دیوار عبور می‌کنند یا اشیاء واکنش‌های غیرواقعی نشان می‌دهند. کنترل حرکت با کلیدهای جهت‌نما و W-A-S-D در تجربه کاربری گزارش‌شده گاهی ناپایدار یا نامنظم است.
– مثال‌های کوچک: در برخی موارد مدل رنگ‌پذیری را اشتباه می‌گیرد (مثلاً به‌جای سبز، موی بنفش خلق می‌کند) که نشان‌دهنده نیاز به بهبود در دقت تبدیل پرامپت به خروجی است.

امنیت و محدودیت‌های محتوایی
دیپ‌مایند از همان ابتدا حفاظت‌های محتوایی را فعال کرده است: امکان تولید محتوای مصداقی برای برهنگی وجود ندارد و تولید شخصیت‌های دارای حق نشر مشخص (مثلاً کاراکترهای دیزنی) مسدود می‌شود. این تصمیم در پس‌زمینه تنش‌های حقوقی میان شرکت‌های رسانه‌ای و ارائه‌دهندگان مدل‌های مولد اتخاذ شده است.

رقابت و چشم‌انداز بازار
راه‌اندازی Project Genie در زمانی صورت گرفته که رقابت روی مدل‌های جهان شدت گرفته است؛ شرکت‌هایی مانند World Labs، Runway و استارتاپ‌هایی وابسته به پژوهشگران برجسته نیز محصولات مشابهی عرضه یا توسعه می‌دهند. دیپ‌مایند چشم‌انداز تجاری‌سازی را از بازی‌ها و سرگرمی آغاز می‌داند و سپس به سمت شبیه‌سازی برای آموزش ربات‌ها و عامل‌های فیزیکی می‌رود.

جمع‌بندی و چشم‌انداز آینده
Project Genie، گرچه هنوز در مرحله آزمایشی و دارای محدودیت‌های فنی و تعاملی است، نمونه‌ای مهم از پیشرفت مدل‌های جهان به‌شمار می‌رود. دسترسی محدود فعلی برای جمع‌آوری بازخورد کاربران و اصلاح مدل‌ها در مراحل بعدی ضروری است. دیپ‌مایند وعده داده که روی بهبود واقع‌گرایی، تعامل‌پذیری و کنترل کاربران کار خواهد کرد تا در آینده تجربه‌ای غنی‌تر و کاربردی‌تر برای بازی‌ها، آموزش ربات‌ها و دیگر حوزه‌های کاربردی فراهم شود.

ویرایش تصویر با هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا