دیپ مایند، یکی از پیشروان هوش مصنوعی، به تازگی از مدل بنیادین جدید خود به نام «جینی ۳» رونمایی کرده است. این مدل قادر است به شکلی عمومی، برای آموزش عاملهای هوش مصنوعی با کاربریهای متنوع مورد استفاده قرار گیرد و بهعنوان یک گام اساسی در مسیر دستیابی به «هوش عمومی مصنوعی» یا AGI تلقی میشود. شلومی فرخت، مدیر پژوهش دیپ مایند، در یک کنفرانس مطبوعاتی اظهار داشت: «جینی ۳ اولین مدل جهانی عمومی و تعاملی در زمان واقعی است که فراتر از مدلهای محدود قبلی عمل میکند. این مدل به محیط خاصی وابسته نیست و قادر به تولید جهانهای عکسی واقعی و همچنین تخیلی است.»
این مدل که هنوز در مرحله تحقیقاتی است و بهصورت عمومی در دسترس نمیباشد، بر پایه مدل پیشین خود، جینی ۲، و همچنین مدل جدید ویدیو تولید دیپ مایند به نام وئو ۳، که درک عمیقی از فیزیک دارد، بنا شده است. با استفاده از یک پرامپت متنی، جینی ۳ میتواند دقایق زیادی از محیطهای تعاملی سهبعدی را با وضوح ۷۲۰p و نرخ ۲۴ فریم در ثانیه تولید کند که این یک پیشرفت چشمگیر نسبت به ۱۰ تا ۲۰ ثانیهای است که جینی ۲ قادر به تولید آن بود. همچنین این مدل از “رویدادهای جهانی قابل پرامپت” برخوردار است که به کاربر امکان میدهد تا با استفاده از یک پرامپت، جهان تولید شده را تغییر دهد.
از دیگر ویژگیهای مهم جینی ۳ این است که شبیهسازیهای آن بهطور مداوم و در طول زمان پایدار باقی میمانند؛ زیرا مدل میتواند آنچه را که قبلاً تولید کرده به خاطر بسپارد. فرخت اشاره کرد که توانایی این مدل در ایجاد تجربیات آموزشی، گیمینگ و نمونهسازی مفاهیم خلاقانه حائز اهمیت است، اما تأثیر واقعی آن در آموزش عاملهای هوش مصنوعی برای انجام وظایف عمومی نهفته است، که برای دستیابی به AGI ضروری است. جک پارکر-هولدر، یک محقق در تیم باز بودن دیپ مایند، مطرح کرد که “مدلهای جهانی در مسیر دستیابی به AGI، بهویژه برای عاملهای تجسمیافته، کلیدی هستند”.
جینی ۳ به گونهای طراحی شده است که این انسداد را حل کند. همانند وئو، این مدل به یک موتور فیزیکی سختافزاری وابسته نیست و به جای آن خود بهصورت مستقل قوانین جهانی را یاد میگیرد. به گفته فرخت، “این مدل بهصورت خودکار و مرحله به مرحله پیش میرود، به این معنی که هر بار یک فریم تولید میکند و برای تصمیمگیری درباره آنچه قرار است بعداً رخ دهد، به تولیدات قبلی خود نگاه میکند.”
علیرغم پیشرفتهای جینی ۳، این مدل محدودیتهایی نیز دارد. به عنوان مثال، اگرچه محققان ادعا میکنند که این مدل قادر به درک فیزیک است، اما دمو نشاندهنده اسکی در حال حرکت بر روی برف، قطعا منعکس کننده جابهجایی برف نسبت به اسکیباز نبود. همچنین، دامنه اقداماتی که یک عامل میتواند انجام دهد محدود است. بهعلاوه، هنوز هم مدلسازی دقیقی از تعاملات پیچیده بین چندین عامل مستقل در یک محیط مشترک دشوار است. برای آموزش مناسب، جینی ۳ فقط قابلیت پشتیبانی از چند دقیقه تعامل مستمر را دارد، در حالی که هفتهها نیاز است.
با این حال، این مدل یک گام بخردانه به جلو در آموزش عاملها برای فراتر رفتن از واکنش به ورودیها ارائه میدهد. این امکان میتواند به آنها اجازه دهد تا برنامهریزی کنند، اکتشاف کنند و از طریق روش آزمون و خطا بهبود یابند. بهروایت پارکر-هولدر، “هنوز لحظهای معنادار برای عاملهای تجسمیافته نداشتهایم که بتوانند اقدامهای نوآورانهای در دنیای واقعی انجام دهند. اما اکنون، ما میتوانیم به ورود به یک عصر جدید امیدوار باشیم.”
