محققان دانشگاه پنسیلوانیا و موسسه آلن برای هوش مصنوعی، ابزاری نوآورانه به نام CoSyn (ترکیب کد هدایت شده) توسعه دادهاند که به سیستمهای هوش مصنوعی متنباز امکان میدهد تا با مدلهای تجاری مانند GPT-4V و Gemini 1.5 Flash رقابت کنند یا حتی از آنها پیشی بگیرند. این ابزار به یکی از چالشهای اساسی در توسعه هوش مصنوعی پاسخ میدهد: کمبود دادههای آموزشی با کیفیت بالا برای یادگیری ماشینها در درک اطلاعات بصری پیچیده، مانند نمودارهای علمی، دیاگرامهای پزشکی و مدارک مالی.
بهجای جمعآوری میلیونها تصویر از اینترنت—که با نگرانیهای کپیرایت و اخلاقی مواجه است—CoSyn از تواناییهای زبانی مدلهای موجود برای تولید دادههای آموزشی مصنوعی استفاده میکند. یوی یانگ، فارغالتحصیل دکترا از دانشگاه پنسیلوانیا و یکی از نویسندگان اصلی این تحقیق، در مصاحبهای با VentureBeat توضیح داد: «ما به دادههایی نیاز داریم که توانایی ما را برای آموزش مدلها افزایش دهد. تصاویر پیچیدهتر، مانند نمودارها و اسناد به مراتب سختتر از تصاویر طبیعی هستند.»
این پیشرفت در زمانی صورت میگیرد که کسبوکارها به دنبال سیستمهای هوش مصنوعی هستند که بتوانند اطلاعات بصری پیچیده را درک و تجزیه و تحلیل کنند؛ قابلیتهایی که برای پردازش خودکار مدارک و ایجاد سامانههای هوش مصنوعی مستقل از ارائهدهندگان دیجیتال ضروری هستند. این تحقیق در حین کارآموزی یانگ در تیم PRIOR موسسه آلن برای هوش مصنوعی انجام شده و توسط دفتر مدیر ملی اطلاعات، فعالیتهای پژوهشی پیشرفته هوش و آژانس پروژههای پیشرفته دفاعی حمایت شده است.
چالش آموزش هوش مصنوعی برای درک تصاویر غنی از متن، سالهاست که حوزه هوش مصنوعی را تحت تأثیر قرار داده است. برخلاف عکسهای طبیعی، نمودارهای علمی و مدارک نیاز به کار بسیار بیشتری برای حاشیهنویسی دارند که هم زمانبر و هم پرهزینه است. رویکردهای سنتی به جمعآوری تصاویر از اینترنت و توصیفهای آنها متکی بودهاند، اما این روش معمولاً دادههای آموزشی سطحی و با مشکلات قانونی تولید میکند.
در مقابل، CoSyn رویکردی بنیادی متفاوت را در پیش گرفته است. تیم تحقیقاتی اینگونه ادعا میکند که بیشتر تصاویر غنی از متن در واقع از طریق کد تولید میشوند؛ برای نمونه، اسکریپتهای پایتون نمودارها را ایجاد میکنند و HTML رابطهای وب را ایجاد میکند. ایده این تیم معکوس کردن این فرآیند و استفاده از تواناییهای برنامهنویسی مدلهای زبانی برای تولید کد اساسی است و سپس اجرای آن برای ایجاد تصاویر مصنوعی واقعگرایانه.
نتایج این تحقیق شگفتانگیز است. با استفاده از مجموعه داده مصنوعی شامل 400,000 تصویر و 2.7 میلیون جفت دستورالعمل، مدلهای آموزشدیده با CoSyn به عملکرد بینظیری در بین سیستمهای متنباز دست یافتند و در هفت آزمون معیار توانایی درک تصویر غنی از متن، به مدلهای تجاری پیشی گرفتند. متوسط امتیاز مدل با پارامترهای 7 میلیاردی آنها 80.9% در آزمونها بود که 3.9 درصد بیشتر از بهترین مدل متنباز قبلی (Llama 3.2 11B) بود. جالب است که حتی مدل “صفر شات” آنها—که بدون هیچ نمونهای از مجموعههای ارزیابی آموزش دیده شده بود—توانست از اکثر مدلهای باز و بسته پیشی بگیرد.
این فناوری هماکنون در صنایع مختلف کاربردهای واقعی پیدا کرده است. همچنین، این تحقیق نشان میدهد که چگونه نسل دادههای مصنوعی میتواند به عنوان راهحلی برای چالشهای حقوقی در مورد دادههای آموزشی هوش مصنوعی عمل کند. این رویکرد نشان میدهد که چگونه میتوان با استفاده از دانش موجود، به کاربردهای جدیدی در زمینههای هوش مصنوعی دست یافت. با توجه به تعهد به شفافیت و منبعباز بودن، کلیه کدها، مجموعه دادهها و اسکریپتهای آموزشی CoSyn برای استفاده پژوهشگران و شرکتها در سرتاسر جهان در دسترس است، و این امکان را فراهم میکند که تحقیقات و نوآوریهای بیشتری صورت گیرد.
پیشرفتهای این فناوری پتانسیلهای عظیمی برای تحول در شیوههای کاری کسبوکارها و بهبود تعامل افراد با تکنولوژی ایجاد میکند. بهطور کلی، CoSyn یک قدم اساسی در جهت رقابت تکنولوژیهای متنباز با مدلهای تجاری هوش مصنوعی است و نشان میدهد که نوآوری و تبادل دانش نقش محوری در توسعه هوش مصنوعی دارند.