آغاز برنامه جدید OpenAI برای اصلاح ارزیابی مدلهای هوش مصنوعی
شرکت OpenAI اعلام کرده است که به منظور اصلاح و بهبود شیوههای ارزیابی مدلهای هوش مصنوعی، برنامهای جدید تحت عنوان “OpenAI Pioneers Program” راهاندازی میکند. این روند به هدف ایجاد ارزیابیهایی خواهد بود که بتوانند “معیارهای کیفیت” را تعیین کنند. در این راستا، OpenAI تأکید کرده است که با افزایش سرعت پذیرش فناوری هوش مصنوعی در صنایع مختلف، ضرورت درک و بهبود تأثیر آن بر جهان بیشتر از همیشه احساس میشود.
OpenAI در یک پست وبلاگی افزود: “توسعه ارزیابیهای خاص هر حوزه میتواند نمایانگر استفادههای واقعی این فناوری باشد و به تیمها کمک کند تا عملکرد مدلها را در محیطهای عملی و با ریسکهای بالا بررسی کنند.” در پی جنجالهای اخیر مربوط به ارزیابی crowdsourced مانند LM Arena و مدل Maverick شرکت متا، مشخص شده که تشخیص تفاوتهای دقیق بین مدلهای هوش مصنوعی امروزه کار دشواری است. بسیاری از ارزیابیهای متداول، عملکرد مدلها را بر اساس کارهای تخصصی و پیچیده، مانند حل مسائل ریاضی در سطح دکترا، سنجش میکنند و دیگر ارزیابیها ممکن است به راحتی قابل دستکاری باشند یا با ترجیحات عمومی نباشند.
از طریق برنامه Pioneers، OpenAI قصد دارد ارزیابیهایی برای حوزههای خاصی چون حقوق، مالی، بیمه، بهداشت و درمان و حسابداری ایجاد کند. این آزمایشگاه اعلام کرده که در ماههای آینده با “چندین شرکت” همکاری خواهد کرد تا ارزیابیهای سفارشی طراحی کند و در نهایت این معیارها را بهطور عمومی منتشر کند.
برنامه Pioneers در تلاش است تا به استارتاپها کمک کند که بنیادی برای این ارزیابیها بنا کنند. OpenAI در پست وبلاگی خود اشاره کرده است: “ما در حال انتخاب تعدادی از استارتاپها برای این گروه ابتدایی هستیم، که روی کاربردهای با ارزش و واقعی کار میکنند که میتواند تأثیر واقعی بر جهان داشته باشد.” همچنین این استارتاپها فرصت خواهند داشت تا با تیم OpenAI همکاری کرده و بهبودهای مدل را از طریق روش “fine tuning” تقویتی انجام دهند، که بهینهسازی مدلها را برای مجموعهای خاص از کارها تسهیل میکند.
سوالی که ممکن است در این میان مطرح شود این است که آیا جامعه هوش مصنوعی نسبت به ارزیابیهایی که تأمین مالی آنها به عهده OpenAI بوده است، رویکرد مثبتی خواهد داشت یا خیر. OpenAI در گذشته نیز از تلاشهای ارزیابی بهطور مالی حمایت کرده و ارزیابیهای خود را طراحی کرده است، اما همکاری با مشتریان برای انتشار آزمونهای هوش مصنوعی ممکن است بهعنوان یک پل اخلاقی بیش از حد در نظر گرفته شود.