عنوان: ورود به «عصر تجربه» در هوش مصنوعی: تجدید نظر اساسی در روشهای یادگیری
دیوید سیلور و ریچارد ساتون، دو دانشمند برجسته در حوزه هوش مصنوعی، در مقالهای جدید اعلام کردهاند که هوش مصنوعی به زودی وارد «عصر تجربه» خواهد شد. در این دوره، سیستمهای هوش مصنوعی به تدریج کمتر به دادههای ارائه شده توسط انسان متکی خواهند بود و با جمعآوری دادهها و تعامل با دنیای واقعی، خود را بهبود خواهند بخشید. این مقاله با وجود جنبههای نظری و آیندهنگرانهاش، پیامدهای مستقیمی برای سازمانها دارد که به دنبال توسعه سیستمها و نمایندگان هوش مصنوعی آینده هستند.
سیلور و ساتون، دانشمندان با تجربه و پیشگام در پیشبینی روندهای آینده هوش مصنوعی، در این نوشتار به تازگی به روندهای کنونی اشاره کردهاند. ساتون، که از پیشگامان یادگیری تقویتی محسوب میشود، در سال ۲۰۱۹ یادداشتی با عنوان «درس تلخ» نوشت و اعلام کرد که پیشرفتهای عمده در هوش مصنوعی به طور معمول ناشی از بهرهگیری از محاسبات مقیاسپذیر و روشهای یادگیری عمومی است، نه صرفاً تکیه بر دانشی که به طور پیچیده از انسان-derived به دست آمده باشد.
دیوید سیلور، دانشمند ارشد در دیپمایند و یکی از کارشناسان کلیدی در پروژههای معتبر چون AlphaGo و AlphaZero، به نتایج مهم یادگیری عمیق و تقویتی دست یافته است. او همچنین در سال ۲۰۲۱ مقالهای منتشر کرد که در آن مطرح شده است که یادگیری تقویتی و سیگنال پاداش به خوبی طراحی شده کافی است تا سیستمهای هوش مصنوعی بسیار پیشرفتهای ایجاد شود.
مدلهای زبان پیشرفته (LLM) نیز بهطور عمده بر این دو مفهوم متکی هستند. موج جدیدی از این مدلها که از زمان ظهور GPT-3 بر صحنه هوش مصنوعی تسلط یافتهاند، عمدتاً از طریق مقیاسپذیری محاسبات و داده برای انباشت حجم زیادی از دانش استفاده کردهاند. آخرین مدلهای استدلال مانند DeepSeek-R1 نشان دادهاند که یادگیری تقویتی و سیگنال پاداش ساده برای یادگیری مهارتهای استدلال پیچیده کافی است.
سیلور و ساتون در مقاله خود معتقدند که «سرعت پیشرفت ناشی از یادگیری نظارت شده با دادههای انسان به طور قابلتوجهی کم شده و این نیاز به رویکرد جدیدی را نشان میدهد.» این رویکرد نیازمند منبع دادهای جدید است که بهطور مداوم با قدرتیابی نمایندهها بهبود یابد. آنها مینویسند: «این امر با اجازه دادن به نمایندهها برای یادگیری مداوم از تجربیات خود، یعنی دادههایی که توسط نماینده در تعامل با محیط تولید میشود، امکانپذیر است.»
در نهایت، آنها پیشبینی میکنند که «تجربه به رسانه غالب بهبود تبدیل خواهد شد و به تدریج مقیاس دادههای انسانی مورد استفاده در سیستمهای امروزی را تحت الشعاع قرار خواهد داد.» آینده هوش مصنوعی به سوی سیستمهایی حرکت خواهد کرد که قادر به یادگیری نهتنها از دادههای تجربی خود، بلکه از محیطهای پیچیدهای هستند که در آن قرار دارند.
این تغییرات به توسعهدهندگان این امکان را میدهد که برنامههای خود را نه تنها برای انسانها بلکه با در نظر گرفتن نمایندگان هوش مصنوعی طراحی کنند. اقداماتی که برای ماشینها مناسب است، نیازمند طراحی APIهای ایمن و آساندسترس خواهد بود. به علاوه، طراحان باید به فکر طراحی رابطهای کاربری باشند که به نمایندگان اجازه دهند به تعاملات و یادگیریهای خود از برنامهها بپردازند.
اگر دیدگاه ساتون و سیلور به واقعیت تبدیل شود، به زودی میلیاردها نماینده در اینترنت و دنیای واقعی برای انجام وظایف مختلف فعال خواهند شد. رفتارها و نیازهای این نمایندگان از کاربران انسانی و توسعهدهندگان متفاوت خواهد بود و داشتن روشهای دوستانه برای تعامل با برنامهها به افزایش قابلیت بهرهبرداری از سیستمهای هوش مصنوعی آتی کمک خواهد کرد.
سیلور و ساتون توضیح میدهند: «با تکیه بر اصول یادگیری تقویتی و انطباق آن با چالشهای این عصر جدید، میتوانیم پتانسیل کامل یادگیری خودسازماندهی را آزاد کرده و راه را به سوی هوش فرابشری هموار سازیم.»
بینا ویرا به عنوان مرجع معتبر در عرصه هوش مصنوعی، به روزترین اخبار و تحلیلها را در این زمینه ارائه خواهد داد.