عامل‌های متن‌باز OpenCUA رقیب مدل‌های اختصاصی OpenAI و Anthropic

محققان دانشگاه هنگ‌کنگ فریم‌ورک متن‌باز OpenCUA را برای آموزش عامل‌های استفاده از رایانه منتشر کردند

یک تیم پژوهشی از دانشگاه هنگ‌کنگ (HKU) و مؤسسات همکار، فریم‌ورکی متن‌باز به نام OpenCUA را معرفی کرده‌اند که زیرساخت و داده‌های لازم برای ساخت عامل‌های هوشمندِ توانمند در کار با رایانه را فراهم می‌کند. هدف OpenCUA توسعه و مقیاس‌پذیری عامل‌های استفاده از رایانه (Computer-Use Agents — CUA) است؛ عامل‌هایی که به‌صورت خودکار وظایف پیچیده روی سیستم‌عامل‌ها، وب‌سایت‌ها و نرم‌افزارهای تجاری را انجام می‌دهند و می‌توانند در خودکارسازی فرایندهای سازمانی به‌کار گرفته شوند.

چالش‌ها و نیازمندی‌ها
تا پیش از این، سیستم‌های توانمند CUA عمدتاً حالت مالکیتی داشتند و جزئیات مهمی از قبیل داده‌های آموزشی، معماری‌ها و فرایندهای توسعه آن‌ها محرمانه نگه داشته می‌شد. این محدودیت‌ها موجب کندی پیشرفت فنی و ایجاد نگرانی‌های ایمنی و شفافیت شده‌اند. از سوی دیگر تلاش‌های متن‌باز با مسئله کمبود زیرساخت‌های مقیاس‌پذیر برای جمع‌آوری داده‌های متنوع و بزرگ روبه‌رو بودند و مجموعه‌داده‌های موجود برای رابط‌های کاربری گرافیکی (GUI) معمولاً ناکافی یا ناکاملی برای بازتولید پژوهش‌ها بودند.

چه چیزی OpenCUA ارائه می‌دهد؟
OpenCUA با هدف رفع این موانع، مجموعه‌ای از ابزارها، داده‌ها و روش‌ها را عرضه می‌کند که شامل موارد کلیدی زیر است:
– AgentNet Tool: ابزاری سبک که روی رایانه‌ی فردی آزماینده اجرا شده و در پس‌زمینه ویدیوهای صفحه، ورودی‌های موس و کیبورد و درخت دسترسی‌پذیری (accessibility tree) را ضبط می‌کند تا اطلاعات ساختاری درباره عناصر روی صفحه فراهم شود.
– پردازش به حالت state-action trajectories: داده‌های خام به جفت‌های حالت-عمل تبدیل می‌شوند؛ یعنی هر تصویر از صفحه (state) با عمل کاربر مانند کلیک یا فشردن کلید (action) جفت‌سازی می‌شود. سپس آزمایندگان می‌توانند این نمایش‌ها را بازبینی، ویرایش و ثبت کنند.
– AgentNet dataset: مجموعه‌ای شامل بیش از 22,600 نمایش وظیفه در ویندوز، macOS و اوبونتو که بیش از 200 برنامه و وب‌سایت را پوشش می‌دهد و رفتارهای پیچیده انسانی و متغیرهای محیطی واقعی را بازتاب می‌دهد.
– AgentNetBench: بنچمارکی آفلاین با امکان ارائه چند عمل درست برای هر گام که ارزیابی عامل‌ها را سریع‌تر و معنادارتر می‌کند.

حریم خصوصی و امنیت داده
تیم توسعه‌دهنده برای کاهش نگرانی‌های حریم خصوصی، چندلایه محافظتی طراحی کرده است. داده‌های ضبط‌شده ابتدا توسط خود آزمایندگان قابل مشاهده و انتخاب برای ارسال هستند؛ سپس فرایندهای دستی بازبینی و اسکن خودکار با مدل‌های بزرگ برای حذف یا شناسایی محتوای حساس انجام می‌شود. این روش ترکیبی به‌ویژه برای کاربردهای سازمانی با داده‌های حساس مشتری یا مالی مناسب‌سازی شده است.

نوآوری در تربیت مدل: زنجیره تفکر (CoT) برای عامل‌های مبتنی بر تصویر-متن
پژوهشگران نشان دادند که آموزش مستقیم مدل‌های بینایی-زبانی (Vision-Language Models — VLMs) روی جفت‌های حالت-عمل به‌تنهایی محدودیت‌هایی دارد. کلید موفقیت، افزودن زنجیره تفکر (chain-of-thought) است: تولید یک «گفتار درونی» ساختاریافته برای هر عمل که شامل سه سطح است — مشاهده‌ی سطح بالا از صفحه، افکار بازتابی برای تحلیل و برنامه‌ریزی و در نهایت عمل قابل اجرا و مختصر. این فرایند به عامل کمک می‌کند تا برنامه‌ریزی، حافظه و بازتاب را درک و تعمیم دهد و قابلیت تعمیم‌پذیری مدل‌ها را به‌صورت چشمگیری افزایش می‌دهد.

نتایج عملکردی و مقایسه با مدل‌های موجود
پژوهشگران OpenCUA چندین مدل متن‌باز VLM را (از جمله گونه‌هایی از Qwen و Kimi-VL) در اندازه‌های 3 تا 32 میلیارد پارامتر آموزش دادند و روی مجموعه‌ای از بنچمارک‌های آنلاین و آفلاین آزمایش کردند. مدل 32 میلیارد پارامتری این فریم‌ورک (OpenCUA-32B) رکورد جدیدی در بین مدل‌های متن‌باز در بنچمارک OSWorld-Verified به‌ثبت رساند، و فراتر از مدل‌های متن‌باز موجود عمل کرده و فاصله عملکردی خود را با عامل‌های مالکیتی پیشرویی مانند نمونه‌های مبتنی بر GPT-4o و مدل‌های Anthropic به‌طور چشمگیری کاهش داد.

کاربردهای سازمانی و محدودیت‌ها
OpenCUA روش‌های قابل‌توسعه‌ای برای شرکت‌ها فراهم می‌کند تا با ضبط نمایش‌های داخلی از فرایندهای اختصاصی خود، بدون نیاز به نگارش دستی ردیابی‌های تفکری، عامل‌های سفارشی و با‌کیفیت بسازند. این فریم‌ورک برای خودکارسازی وظایف تکراری و چندمرحله‌ای در سازمان‌ها مناسب است؛ به‌عنوان مثال راه‌اندازی نمونه‌های EC2 در AWS یا پیکربندی پارامترهای نشردهی در پلتفرم‌های برون‌سپاری.

با این حال، پژوهشگران بر چالش‌های حیاتی پیش از استقرار در محیط‌های زنده تأکید دارند: ایمنی، اطمینان‌پذیری و جلوگیری از خطاهایی که می‌تواند تنظیمات سیستم را تغییر داده یا آثار جانبی خطرناک ایجاد کند، همچنان مسائلی هستند که باید با روش‌های کنترلی، نظارتی و تست‌های گسترده حل شوند.

متن‌باز شدن کد، داده‌ها و وزن‌ها
توسعه‌دهندگان OpenCUA کد، مجموعه‌داده‌ها و وزن‌های آموزشی مدل‌ها را به‌صورت متن‌باز منتشر کرده‌اند تا جامعه پژوهشی و توسعه‌دهندگان سازمانی بتوانند روش‌ها را بازتولید، ارزیابی و بر اساس نیازهای خود توسعه دهند. این شفافیت می‌تواند تسریع‌کننده پژوهش و بهبود ایمنی در اکوسیستم عامل‌های استفاده از رایانه باشد.

جمع‌بندی
OpenCUA نقطه‌عطفی در فراهم‌سازی زیرساخت‌های متن‌باز برای عامل‌های کاری با رایانه است؛ با تأکید بر جمع‌آوری داده‌های واقعی کاربر، حفاظت چندلایه حریم خصوصی و استفاده از زنجیره تفکر برای افزایش تعمیم‌پذیری مدل‌ها. برای شرکت‌ها و تیم‌های محصول، این فریم‌ورک یک مسیر عملی برای آموزش عامل‌های سفارشی روی ابزارهای داخلی فراهم می‌کند، هرچند پیش‌نیازهای ایمنی و کنترل در مرحله استقرار نباید نادیده گرفته شوند.

گفتگوی هوشمند آنلاین

عامل‌های متن‌باز OpenCUA رقیب مدل‌های اختصاصی OpenAI و Anthropic

دیدگاه‌ خود را بنویسید لغو پاسخ