CoAct‑1: ترکیب کدنویسی و تعامل گرافیکی برای عامل‌های رایانه‌ای مقاوم‌تر و کارآمدتر

پژوهشگران شرکت Salesforce و دانشگاه کالیفرنیای جنوبی (USC) یک روش هیبریدی جدید به نام CoAct‑1 معرفی کرده‌اند که به عامل‌های استفاده‌کننده از رایانه (computer-use agents) امکان می‌دهد هم‌زمان از دو شیوهٔ مرسومِ «تعامل بصری با رابط کاربری گرافیکی» و «اجرای کد مستقیم» بهره ببرند. در عمل این رویکرد به عامل‌ها اجازه می‌دهد در مواردی که اجرای چند خط کد از مجموعه‌ای طولانی از کلیک‌ها دقیق‌تر و کارآمدتر است، به‌صورت مستقیم برنامه‌نویسی کنند و در عین حال برای عملیاتی که نیاز به مشاهده و کلیک دارند، از تعامل بصری استفاده نمایند. نتیجه: گردش‌کار سریع‌تر، خطای کمتر و اتوماسیون مقاوم‌تر در محیط‌های واقعی.

چه مسئله‌ای را حل می‌کند؟
عامل‌های مبتنی بر دید و زبان (vision-language models) که برای کار با رابط‌های گرافیکی طراحی شده‌اند، در وظایف بلندمدت و پیچیده—مثلاً تعامل با منوها و آیکون‌های متشابه در مجموعه‌های اداری—معمولاً دچار شکست یا خطا می‌شوند. یک کلیک اشتباه یا اشتباه در تشخیص یک المان رابط کاربری می‌تواند کل فرایند را مختل کند. از سوی دیگر، بسیاری از این عملیات را می‌توان با چند دستور برنامه‌نویسی ساده و امن به‌صورت دقیق انجام داد؛ اما عامل‌های GUI‑محور معمولاً توان اجرای کد را ندارند. CoAct‑1 برای پر کردن همین خلأ طراحی شده است.

معماری CoAct‑1 چگونه است؟
CoAct‑1 به صورت یک تیم سه‌عضوی از عامل‌ها عمل می‌کند:
– Orchestrator (هماهنگ‌کننده): برنامه‌ریز مرکزی که هدف کلی کاربر را تجزیه کرده و هر زیرکار را به مناسب‌ترین عامل می‌سپارد.
– Programmer (برنامه‌نویس): با استفاده از مدل‌های زبان بزرگ (LLM) کدهای Python یا Bash تولید و اجرا می‌کند و برای توسعه و آزمون کد از مفسرهای کد استفاده می‌کند.
– GUI Operator (عامل رابط گرافیکی): مبتنی بر مدل‌های بینایی-زبانی است و وظایفِ نیازمند کلیک، تایپ یا مانور در UI را اجرا می‌کند.

این تیم به‌صورت تکراری کار می‌کند: پس از تکمیل هر زیرکار، عامل اجرایی (برنامه‌نویس یا اپراتور GUI) خلاصه‌ای از وضعیت به‌همراه اسکرین‌شات بازگشتی ارائه می‌دهد و Orchestrator تصمیم بعدی را می‌گیرد. چنین طراحیِ پویا به سیستم اجازه می‌دهد در موارد مناسب از اجرای یک‌باره و قابل‌اعتماد کد استفاده کند و فقط برای مواردی که ناگزیر به تعامل بصری است، روی رابط کاربری تکیه نماید.

دستاوردهای آزمایشی
پژوهشگران CoAct‑1 را روی بنچمارک گستردهٔ OSWorld که شامل 369 وظیفهٔ واقعی در مرورگرها، محیط‌های توسعه و برنامه‌های اداری است آزمایش کردند. نتایج نشان‌دهندهٔ پیشرفت قابل‌توجهی است:
– نرخ موفقیت کلی: 60.76% (وضعیتِ رکوردی جدید در برخی معیارها)
– میانگین تعداد گام برای تکمیل وظایف: 10.15 گام، در مقایسه با 15.22 گام برای عامل‌های صرفاً GUI مانند GTA‑1

این بهبودها خصوصاً در دسته‌هایی مشهود بود که کنترل برنامه‌ای (programmatic) برتری آشکاری دارد؛ برای مثال وظایف سطح سیستم‌عامل یا گردش‌کارهای چند‌ابزاری که با یک اسکریپت قابل انجام‌اند. یک نمونهٔ ملموس: یافتن همهٔ تصاویر در ساختار پوشه‌ای پیچیده، تغییر اندازه و فشرده‌سازی کل دایرکتوری. اجرای این کار با کلیک‌کاری طولانی پرخطاست، اما برنامه‌نویس داخلی CoAct‑1 می‌تواند آن را با یک اسکریپت واحد و مقاوم انجام دهد.

مزایا و پیامدها برای سازمان‌ها
– افزایش کارایی و کاهش خطا: فشرده‌سازی گام‌ها باعث کاهش فرصت‌های خطا می‌شود.
– انعطاف‌پذیری در محیط‌های بدون API کامل: در سازمان‌هایی که برخی ابزارها فاقد API هستند، ترکیب تعامل بصری و اجرای کد می‌تواند اتوماسیون‌های واقعی‌تری ایجاد کند.
– موارد کاربردی ملموس: پشتیبانی مشتری (کار با چندین ابزار و سیستم سفارشی)، فروش و شناسایی مشتری (prospecting)، حسابداری روزمره و بازاریابی (تفکیک مشتریان و تولید دارایی‌های کمپین).

چالش‌ها و ملاحظات امنیتی
توانایی برنامه‌نویس عامل به اجرای کد، هم قابلیت‌‌افزایی مهمی است و هم منبعی از ریسک. پرسش‌های کلیدی عبارت‌اند از: چگونه از اجرای کدهای مخرب جلوگیری کنیم؟ چگونه تصمیم‌گیری Orchestrator در مواجهه با نرم‌افزارهای ناآشنا قابل اطمینان شود؟ نویسندگان بر ضرورت «قراردادن عامل‌ها در سندباکس، کنترل دسترسی و نظارت انسانی» تأکید دارند. راهکار پیشنهادی شامل آموزش عامل‌ها در محیط‌های شبیه‌سازی‌شده با بازخورد و پیاده‌سازی انسان‌درمیان (human‑in‑the‑loop) در فازهای اولیه است تا از رفتار ایمن در محیط‌های بحرانی اطمینان حاصل شود.

جمع‌بندی و چشم‌انداز
CoAct‑1 نشان می‌دهد ترکیب هوشمندانهٔ تعامل بصری و اجرای کد می‌تواند سطح جدیدی از کارایی و قابلیت اطمینان را در عامل‌های رایانه‌ای به ارمغان بیاورد. برای کاربردهای سازمانی با نرم‌افزارهای متنوع و گاهِ بدون API، این مدل پتانسیل تبدیل شدن به یک راهکار عملی برای اتوماسیون پیچیده را دارد؛ اما پیاده‌سازی امن و مقیاس‌پذیر آن نیازمند سازوکارهای سندباکسینگ، کنترل دسترسی و نظارت انسانی است. تحقیقات آتی بر تقویت قابلیت تعمیم‌پذیری در نرم‌افزارهای سفارشی، بهبود استقرار در محیط‌های واقعی و طراحی چارچوب‌های امنیتی متمرکز خواهد بود.

دستیار صوتی هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا