CoAct‑1: ترکیب کدنویسی و تعامل گرافیکی برای عاملهای رایانهای مقاومتر و کارآمدتر
پژوهشگران شرکت Salesforce و دانشگاه کالیفرنیای جنوبی (USC) یک روش هیبریدی جدید به نام CoAct‑1 معرفی کردهاند که به عاملهای استفادهکننده از رایانه (computer-use agents) امکان میدهد همزمان از دو شیوهٔ مرسومِ «تعامل بصری با رابط کاربری گرافیکی» و «اجرای کد مستقیم» بهره ببرند. در عمل این رویکرد به عاملها اجازه میدهد در مواردی که اجرای چند خط کد از مجموعهای طولانی از کلیکها دقیقتر و کارآمدتر است، بهصورت مستقیم برنامهنویسی کنند و در عین حال برای عملیاتی که نیاز به مشاهده و کلیک دارند، از تعامل بصری استفاده نمایند. نتیجه: گردشکار سریعتر، خطای کمتر و اتوماسیون مقاومتر در محیطهای واقعی.
چه مسئلهای را حل میکند؟
عاملهای مبتنی بر دید و زبان (vision-language models) که برای کار با رابطهای گرافیکی طراحی شدهاند، در وظایف بلندمدت و پیچیده—مثلاً تعامل با منوها و آیکونهای متشابه در مجموعههای اداری—معمولاً دچار شکست یا خطا میشوند. یک کلیک اشتباه یا اشتباه در تشخیص یک المان رابط کاربری میتواند کل فرایند را مختل کند. از سوی دیگر، بسیاری از این عملیات را میتوان با چند دستور برنامهنویسی ساده و امن بهصورت دقیق انجام داد؛ اما عاملهای GUI‑محور معمولاً توان اجرای کد را ندارند. CoAct‑1 برای پر کردن همین خلأ طراحی شده است.
معماری CoAct‑1 چگونه است؟
CoAct‑1 به صورت یک تیم سهعضوی از عاملها عمل میکند:
– Orchestrator (هماهنگکننده): برنامهریز مرکزی که هدف کلی کاربر را تجزیه کرده و هر زیرکار را به مناسبترین عامل میسپارد.
– Programmer (برنامهنویس): با استفاده از مدلهای زبان بزرگ (LLM) کدهای Python یا Bash تولید و اجرا میکند و برای توسعه و آزمون کد از مفسرهای کد استفاده میکند.
– GUI Operator (عامل رابط گرافیکی): مبتنی بر مدلهای بینایی-زبانی است و وظایفِ نیازمند کلیک، تایپ یا مانور در UI را اجرا میکند.
این تیم بهصورت تکراری کار میکند: پس از تکمیل هر زیرکار، عامل اجرایی (برنامهنویس یا اپراتور GUI) خلاصهای از وضعیت بههمراه اسکرینشات بازگشتی ارائه میدهد و Orchestrator تصمیم بعدی را میگیرد. چنین طراحیِ پویا به سیستم اجازه میدهد در موارد مناسب از اجرای یکباره و قابلاعتماد کد استفاده کند و فقط برای مواردی که ناگزیر به تعامل بصری است، روی رابط کاربری تکیه نماید.
دستاوردهای آزمایشی
پژوهشگران CoAct‑1 را روی بنچمارک گستردهٔ OSWorld که شامل 369 وظیفهٔ واقعی در مرورگرها، محیطهای توسعه و برنامههای اداری است آزمایش کردند. نتایج نشاندهندهٔ پیشرفت قابلتوجهی است:
– نرخ موفقیت کلی: 60.76% (وضعیتِ رکوردی جدید در برخی معیارها)
– میانگین تعداد گام برای تکمیل وظایف: 10.15 گام، در مقایسه با 15.22 گام برای عاملهای صرفاً GUI مانند GTA‑1
این بهبودها خصوصاً در دستههایی مشهود بود که کنترل برنامهای (programmatic) برتری آشکاری دارد؛ برای مثال وظایف سطح سیستمعامل یا گردشکارهای چندابزاری که با یک اسکریپت قابل انجاماند. یک نمونهٔ ملموس: یافتن همهٔ تصاویر در ساختار پوشهای پیچیده، تغییر اندازه و فشردهسازی کل دایرکتوری. اجرای این کار با کلیککاری طولانی پرخطاست، اما برنامهنویس داخلی CoAct‑1 میتواند آن را با یک اسکریپت واحد و مقاوم انجام دهد.
مزایا و پیامدها برای سازمانها
– افزایش کارایی و کاهش خطا: فشردهسازی گامها باعث کاهش فرصتهای خطا میشود.
– انعطافپذیری در محیطهای بدون API کامل: در سازمانهایی که برخی ابزارها فاقد API هستند، ترکیب تعامل بصری و اجرای کد میتواند اتوماسیونهای واقعیتری ایجاد کند.
– موارد کاربردی ملموس: پشتیبانی مشتری (کار با چندین ابزار و سیستم سفارشی)، فروش و شناسایی مشتری (prospecting)، حسابداری روزمره و بازاریابی (تفکیک مشتریان و تولید داراییهای کمپین).
چالشها و ملاحظات امنیتی
توانایی برنامهنویس عامل به اجرای کد، هم قابلیتافزایی مهمی است و هم منبعی از ریسک. پرسشهای کلیدی عبارتاند از: چگونه از اجرای کدهای مخرب جلوگیری کنیم؟ چگونه تصمیمگیری Orchestrator در مواجهه با نرمافزارهای ناآشنا قابل اطمینان شود؟ نویسندگان بر ضرورت «قراردادن عاملها در سندباکس، کنترل دسترسی و نظارت انسانی» تأکید دارند. راهکار پیشنهادی شامل آموزش عاملها در محیطهای شبیهسازیشده با بازخورد و پیادهسازی انساندرمیان (human‑in‑the‑loop) در فازهای اولیه است تا از رفتار ایمن در محیطهای بحرانی اطمینان حاصل شود.
جمعبندی و چشمانداز
CoAct‑1 نشان میدهد ترکیب هوشمندانهٔ تعامل بصری و اجرای کد میتواند سطح جدیدی از کارایی و قابلیت اطمینان را در عاملهای رایانهای به ارمغان بیاورد. برای کاربردهای سازمانی با نرمافزارهای متنوع و گاهِ بدون API، این مدل پتانسیل تبدیل شدن به یک راهکار عملی برای اتوماسیون پیچیده را دارد؛ اما پیادهسازی امن و مقیاسپذیر آن نیازمند سازوکارهای سندباکسینگ، کنترل دسترسی و نظارت انسانی است. تحقیقات آتی بر تقویت قابلیت تعمیمپذیری در نرمافزارهای سفارشی، بهبود استقرار در محیطهای واقعی و طراحی چارچوبهای امنیتی متمرکز خواهد بود.
