محققان دانشگاه پنسیلوانیا و موسسه آلن برای هوش مصنوعی، ابزاری نوآورانه به نام CoSyn (ترکیب کد هدایت شده) توسعه داده‌اند که به سیستم‌های هوش مصنوعی متن‌باز امکان می‌دهد تا با مدل‌های تجاری مانند GPT-4V و Gemini 1.5 Flash رقابت کنند یا حتی از آن‌ها پیشی بگیرند. این ابزار به یکی از چالش‌های اساسی در توسعه هوش مصنوعی پاسخ می‌دهد: کمبود داده‌های آموزشی با کیفیت بالا برای یادگیری ماشین‌ها در درک اطلاعات بصری پیچیده، مانند نمودارهای علمی، دیاگرام‌های پزشکی و مدارک مالی.

به‌جای جمع‌آوری میلیون‌ها تصویر از اینترنت—که با نگرانی‌های کپی‌رایت و اخلاقی مواجه است—CoSyn از توانایی‌های زبانی مدل‌های موجود برای تولید داده‌های آموزشی مصنوعی استفاده می‌کند. یوی یانگ، فارغ‌التحصیل دکترا از دانشگاه پنسیلوانیا و یکی از نویسندگان اصلی این تحقیق، در مصاحبه‌ای با VentureBeat توضیح داد: «ما به داده‌هایی نیاز داریم که توانایی ما را برای آموزش مدل‌ها افزایش دهد. تصاویر پیچیده‌تر، مانند نمودارها و اسناد به مراتب سخت‌تر از تصاویر طبیعی هستند.»

این پیشرفت در زمانی صورت می‌گیرد که کسب‌وکارها به دنبال سیستم‌های هوش مصنوعی هستند که بتوانند اطلاعات بصری پیچیده را درک و تجزیه و تحلیل کنند؛ قابلیت‌هایی که برای پردازش خودکار مدارک و ایجاد سامانه‌های هوش مصنوعی مستقل از ارائه‌دهندگان دیجیتال ضروری هستند. این تحقیق در حین کارآموزی یانگ در تیم PRIOR موسسه آلن برای هوش مصنوعی انجام شده و توسط دفتر مدیر ملی اطلاعات، فعالیت‌های پژوهشی پیشرفته هوش و آژانس پروژه‌های پیشرفته دفاعی حمایت شده است.

چالش آموزش هوش مصنوعی برای درک تصاویر غنی از متن، سال‌هاست که حوزه هوش مصنوعی را تحت تأثیر قرار داده است. برخلاف عکس‌های طبیعی، نمودارهای علمی و مدارک نیاز به کار بسیار بیشتری برای حاشیه‌نویسی دارند که هم زمان‌بر و هم پرهزینه است. رویکردهای سنتی به جمع‌آوری تصاویر از اینترنت و توصیف‌های آنها متکی بوده‌اند، اما این روش معمولاً داده‌های آموزشی سطحی و با مشکلات قانونی تولید می‌کند.

در مقابل، CoSyn رویکردی بنیادی متفاوت را در پیش گرفته است. تیم تحقیقاتی اینگونه ادعا می‌کند که بیشتر تصاویر غنی از متن در واقع از طریق کد تولید می‌شوند؛ برای نمونه، اسکریپت‌های پایتون نمودارها را ایجاد می‌کنند و HTML رابط‌های وب را ایجاد می‌کند. ایده این تیم معکوس کردن این فرآیند و استفاده از توانایی‌های برنامه‌نویسی مدل‌های زبانی برای تولید کد اساسی است و سپس اجرای آن برای ایجاد تصاویر مصنوعی واقع‌گرایانه.

نتایج این تحقیق شگفت‌انگیز است. با استفاده از مجموعه داده مصنوعی شامل 400,000 تصویر و 2.7 میلیون جفت دستورالعمل، مدل‌های آموزش‌دیده با CoSyn به عملکرد بی‌نظیری در بین سیستم‌های متن‌باز دست یافتند و در هفت آزمون معیار توانایی درک تصویر غنی از متن، به مدل‌های تجاری پیشی گرفتند. متوسط امتیاز مدل با پارامترهای 7 میلیاردی آن‌ها 80.9% در آزمون‌ها بود که 3.9 درصد بیشتر از بهترین مدل متن‌باز قبلی (Llama 3.2 11B) بود. جالب است که حتی مدل “صفر شات” آن‌ها—که بدون هیچ نمونه‌ای از مجموعه‌های ارزیابی آموزش دیده شده بود—توانست از اکثر مدل‌های باز و بسته پیشی بگیرد.

این فناوری هم‌اکنون در صنایع مختلف کاربردهای واقعی پیدا کرده است. همچنین، این تحقیق نشان می‌دهد که چگونه نسل داده‌های مصنوعی می‌تواند به عنوان راه‌حلی برای چالش‌های حقوقی در مورد داده‌های آموزشی هوش مصنوعی عمل کند. این رویکرد نشان می‌دهد که چگونه می‌توان با استفاده از دانش موجود، به کاربردهای جدیدی در زمینه‌های هوش مصنوعی دست یافت. با توجه به تعهد به شفافیت و منبع‌باز بودن، کلیه کدها، مجموعه داده‌ها و اسکریپت‌های آموزشی CoSyn برای استفاده پژوهشگران و شرکت‌ها در سرتاسر جهان در دسترس است، و این امکان را فراهم می‌کند که تحقیقات و نوآوری‌های بیشتری صورت گیرد.

پیشرفت‌های این فناوری پتانسیل‌های عظیمی برای تحول در شیوه‌های کاری کسب‌وکارها و بهبود تعامل افراد با تکنولوژی ایجاد می‌کند. به‌طور کلی، CoSyn یک قدم اساسی در جهت رقابت تکنولوژی‌های متن‌باز با مدل‌های تجاری هوش مصنوعی است و نشان می‌دهد که نوآوری و تبادل دانش نقش محوری در توسعه هوش مصنوعی دارند.

تبدیل گفتار به نوشتار

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا