در دنیای پرشتاب فناوری، مدلهای زبانی بزرگ (LLMs) در حال تغییر شیوه عملکرد شرکتها هستند، اما ماهیت “جعبه سیاه” این مدلها اغلب باعث عدم پیشبینیپذیری میشود. برای مقابله با این چالش حیاتی، شرکت آنتروپیک به تازگی ابزار ردیابی مدارهای خود را به صورت متن باز منتشر کرده است. این ابزار به توسعهدهندگان و پژوهشگران اجازه میدهد تا به طور مستقیم به درک و کنترل عملکردهای داخلی مدلها بپردازند.
ابزار ردیابی مدار این امکان را به محققان میدهد تا خطاها و رفتارهای غیرقابل پیشبینی را در مدلهای با وزن باز بررسی کنند و همچنین به تنظیم دقیق (fine-tuning) مدلها برای انجام وظایف داخلی خاص کمک میکند. این ابزار بر پایه مفهوم “تعبیر مکانیسمی” کار میکند که یک حوزه در حال رشد است و در تلاش است تا بفهمد مدلهای هوش مصنوعی چگونه بر اساس فعالیتهای داخلی خود عمل میکنند، نه تنها از طریق مشاهده ورودیها و خروجیها.
تحقیقات اولیه آنتروپیک در زمینه ردیابی مدار به مدل Claude 3.5 Haiku محدود میشد، اما با انتشار این ابزار متن باز، این قابلیت به مدلهای با وزن باز گسترش یافته است. تیم آنتروپیک از این ابزار برای ردیابی مدارهای مدلهایی مانند Gemma-2-2b و Llama-3.2-1b استفاده کرده و یک دفترچه کلاود (Colab notebook) نیز منتشر کرده است که به کاربران کمک میکند تا این کتابخانه را در مدلهای باز استفاده کنند.
هسته این ابزار در تولید نمودارهای انتسابی قرار دارد که نقشههای علّی را ترسیم میکند و تعاملات بین ویژگیها را در حین پردازش اطلاعات توسط مدل و تولید خروجی نشان میدهد. این مسأله مانند داشتن یک دیاگرام دقیق از سیمکشیهای داخلی تفکر یک هوش مصنوعی است. از سوی دیگر، این ابزار امکان انجام “آزمایشات مداخلهای” را فراهم میکند که به محققان اجازه میدهد ویژگیهای داخلی را مستقیماً تغییر دهند و اثرات تغییرات در حالتهای داخلی هوش مصنوعی را بر پاسخهای خارجی مشاهده کنند.
ابزار ردیابی مدار همچنین با Neuronpedia، پلتفرم متن بازی برای درک و آزمایش شبکههای عصبی، یکپارچه شده است. در حالی که ابزار ردیابی مدار آنتروپیک یک گام بزرگ به سوی هوش مصنوعی قابل تفسیر و کنترلپذیر به حساب میآید، چالشهای عملی شامل هزینههای بالای حافظه و پیچیدگی ذاتی تعبیر نمودارهای انتسابی وجود دارد. با این حال، این چالشها معمولاً در تحقیقات پیشرفته مشاهده میشوند.
تعبیر مکانیسمی یک زمینه تحقیقاتی وسیع است و اکثر آزمایشگاههای بزرگ هوش مصنوعی در حال توسعه مدلهایی برای بررسی عملکردهای داخلی مدلهای زبانی بزرگ هستند. با متن باز کردن ابزار ردیابی مدار، آنتروپیک به جامعه علمی این امکان را میدهد تا ابزارهای قابل تفسیرتر، مقیاسپذیرتر و خودکارتر برای بررسی LLMها توسعه دهند.
با بلوغ این ابزارها، قابلیت فهم چرایی تصمیمگیریهای LLMها میتواند به منافع عملی برای شرکتها منجر شود. ردیابی مدارها نحوه انجام استدلالهای پیچیده چند مرحلهای را توضیح میدهد و به محققان این امکان را میدهد تا مراحل برنامهریزی داخلی یا استدلال را شناسایی کرده و بهینهسازیهای لازم را انجام دهند.
این ابزار همچنین روشنایی بهتری در عملیات عددی ارائه میدهد و میتواند به شرکتها کمک کند تا محاسبات داخلی منجر به نتایج عددی را بررسی کرده و خطاها را شناسایی کنند. علاوه بر این، برای استقرارهای جهانی، این ابزار بینشهایی در خصوص انسجام چند زبانه ارائه میدهد و میتواند به بهبود دقت اطلاعات نمایشی کمک کند.
در پایان، ابزار ردیابی مدار کمک میکند تا با پدیدههای غیرواقعی (hallucinations) مقابله شود و به بهبود اصول واقعیت در مدلها بپردازد. با درک مکانیسمهای داخلی، توسعهدهندگان میتوانند به دقت مدارهای داخلی مسئول همراستایی مدلها را تنظیم کنند.
شواهد نشان میدهد که با استقبال از این فناوریها، مسئله شفافیت، قابلیت تفسیر و کنترل مدلهای هوش مصنوعی به شدت اهمیت مییابد و این نسل جدید از ابزارها میتواند به ایجاد اعتماد و اطمینان در سازمانها کمک کند.