محققان دانشگاه هنگکنگ فریمورک متنباز OpenCUA را برای آموزش عاملهای استفاده از رایانه منتشر کردند
یک تیم پژوهشی از دانشگاه هنگکنگ (HKU) و مؤسسات همکار، فریمورکی متنباز به نام OpenCUA را معرفی کردهاند که زیرساخت و دادههای لازم برای ساخت عاملهای هوشمندِ توانمند در کار با رایانه را فراهم میکند. هدف OpenCUA توسعه و مقیاسپذیری عاملهای استفاده از رایانه (Computer-Use Agents — CUA) است؛ عاملهایی که بهصورت خودکار وظایف پیچیده روی سیستمعاملها، وبسایتها و نرمافزارهای تجاری را انجام میدهند و میتوانند در خودکارسازی فرایندهای سازمانی بهکار گرفته شوند.
چالشها و نیازمندیها
تا پیش از این، سیستمهای توانمند CUA عمدتاً حالت مالکیتی داشتند و جزئیات مهمی از قبیل دادههای آموزشی، معماریها و فرایندهای توسعه آنها محرمانه نگه داشته میشد. این محدودیتها موجب کندی پیشرفت فنی و ایجاد نگرانیهای ایمنی و شفافیت شدهاند. از سوی دیگر تلاشهای متنباز با مسئله کمبود زیرساختهای مقیاسپذیر برای جمعآوری دادههای متنوع و بزرگ روبهرو بودند و مجموعهدادههای موجود برای رابطهای کاربری گرافیکی (GUI) معمولاً ناکافی یا ناکاملی برای بازتولید پژوهشها بودند.
چه چیزی OpenCUA ارائه میدهد؟
OpenCUA با هدف رفع این موانع، مجموعهای از ابزارها، دادهها و روشها را عرضه میکند که شامل موارد کلیدی زیر است:
– AgentNet Tool: ابزاری سبک که روی رایانهی فردی آزماینده اجرا شده و در پسزمینه ویدیوهای صفحه، ورودیهای موس و کیبورد و درخت دسترسیپذیری (accessibility tree) را ضبط میکند تا اطلاعات ساختاری درباره عناصر روی صفحه فراهم شود.
– پردازش به حالت state-action trajectories: دادههای خام به جفتهای حالت-عمل تبدیل میشوند؛ یعنی هر تصویر از صفحه (state) با عمل کاربر مانند کلیک یا فشردن کلید (action) جفتسازی میشود. سپس آزمایندگان میتوانند این نمایشها را بازبینی، ویرایش و ثبت کنند.
– AgentNet dataset: مجموعهای شامل بیش از 22,600 نمایش وظیفه در ویندوز، macOS و اوبونتو که بیش از 200 برنامه و وبسایت را پوشش میدهد و رفتارهای پیچیده انسانی و متغیرهای محیطی واقعی را بازتاب میدهد.
– AgentNetBench: بنچمارکی آفلاین با امکان ارائه چند عمل درست برای هر گام که ارزیابی عاملها را سریعتر و معنادارتر میکند.
حریم خصوصی و امنیت داده
تیم توسعهدهنده برای کاهش نگرانیهای حریم خصوصی، چندلایه محافظتی طراحی کرده است. دادههای ضبطشده ابتدا توسط خود آزمایندگان قابل مشاهده و انتخاب برای ارسال هستند؛ سپس فرایندهای دستی بازبینی و اسکن خودکار با مدلهای بزرگ برای حذف یا شناسایی محتوای حساس انجام میشود. این روش ترکیبی بهویژه برای کاربردهای سازمانی با دادههای حساس مشتری یا مالی مناسبسازی شده است.
نوآوری در تربیت مدل: زنجیره تفکر (CoT) برای عاملهای مبتنی بر تصویر-متن
پژوهشگران نشان دادند که آموزش مستقیم مدلهای بینایی-زبانی (Vision-Language Models — VLMs) روی جفتهای حالت-عمل بهتنهایی محدودیتهایی دارد. کلید موفقیت، افزودن زنجیره تفکر (chain-of-thought) است: تولید یک «گفتار درونی» ساختاریافته برای هر عمل که شامل سه سطح است — مشاهدهی سطح بالا از صفحه، افکار بازتابی برای تحلیل و برنامهریزی و در نهایت عمل قابل اجرا و مختصر. این فرایند به عامل کمک میکند تا برنامهریزی، حافظه و بازتاب را درک و تعمیم دهد و قابلیت تعمیمپذیری مدلها را بهصورت چشمگیری افزایش میدهد.
نتایج عملکردی و مقایسه با مدلهای موجود
پژوهشگران OpenCUA چندین مدل متنباز VLM را (از جمله گونههایی از Qwen و Kimi-VL) در اندازههای 3 تا 32 میلیارد پارامتر آموزش دادند و روی مجموعهای از بنچمارکهای آنلاین و آفلاین آزمایش کردند. مدل 32 میلیارد پارامتری این فریمورک (OpenCUA-32B) رکورد جدیدی در بین مدلهای متنباز در بنچمارک OSWorld-Verified بهثبت رساند، و فراتر از مدلهای متنباز موجود عمل کرده و فاصله عملکردی خود را با عاملهای مالکیتی پیشرویی مانند نمونههای مبتنی بر GPT-4o و مدلهای Anthropic بهطور چشمگیری کاهش داد.
کاربردهای سازمانی و محدودیتها
OpenCUA روشهای قابلتوسعهای برای شرکتها فراهم میکند تا با ضبط نمایشهای داخلی از فرایندهای اختصاصی خود، بدون نیاز به نگارش دستی ردیابیهای تفکری، عاملهای سفارشی و باکیفیت بسازند. این فریمورک برای خودکارسازی وظایف تکراری و چندمرحلهای در سازمانها مناسب است؛ بهعنوان مثال راهاندازی نمونههای EC2 در AWS یا پیکربندی پارامترهای نشردهی در پلتفرمهای برونسپاری.
با این حال، پژوهشگران بر چالشهای حیاتی پیش از استقرار در محیطهای زنده تأکید دارند: ایمنی، اطمینانپذیری و جلوگیری از خطاهایی که میتواند تنظیمات سیستم را تغییر داده یا آثار جانبی خطرناک ایجاد کند، همچنان مسائلی هستند که باید با روشهای کنترلی، نظارتی و تستهای گسترده حل شوند.
متنباز شدن کد، دادهها و وزنها
توسعهدهندگان OpenCUA کد، مجموعهدادهها و وزنهای آموزشی مدلها را بهصورت متنباز منتشر کردهاند تا جامعه پژوهشی و توسعهدهندگان سازمانی بتوانند روشها را بازتولید، ارزیابی و بر اساس نیازهای خود توسعه دهند. این شفافیت میتواند تسریعکننده پژوهش و بهبود ایمنی در اکوسیستم عاملهای استفاده از رایانه باشد.
جمعبندی
OpenCUA نقطهعطفی در فراهمسازی زیرساختهای متنباز برای عاملهای کاری با رایانه است؛ با تأکید بر جمعآوری دادههای واقعی کاربر، حفاظت چندلایه حریم خصوصی و استفاده از زنجیره تفکر برای افزایش تعمیمپذیری مدلها. برای شرکتها و تیمهای محصول، این فریمورک یک مسیر عملی برای آموزش عاملهای سفارشی روی ابزارهای داخلی فراهم میکند، هرچند پیشنیازهای ایمنی و کنترل در مرحله استقرار نباید نادیده گرفته شوند.
