پیشرفت‌های جدید در تحلیل مدل‌های زبانی بزرگ توسط Anthropic: راهی به سوی شفافیت در هوش مصنوعی

شرکت Anthropic از روش‌های جدیدی برای بررسی و تحلیل مدل‌های زبانی بزرگ (LLMs) مانند Claude پرده‌برداری کرده است که برای نخستین بار نحوه پردازش اطلاعات و تصمیم‌گیری در این سیستم‌ها را با جزئیات بیشتری آشکار می‌کند. تحقیقات جدید که در دو مقاله علمی منتشر شده‌اند، نشان می‌دهند که این مدل‌ها از قابلیت‌هایی پیچیده‌تر از آنچه قبلاً تصور می‌شد برخوردارند. این تحقیق، روش‌هایی نوین مانند برنامه‌ریزی پیشرفته در نوشتن شعر، استفاده از الگوهای مشابه برای تحلیل مفاهیم فارغ از زبان، و حتی اتخاذ رویکرد معکوس از نتیجه به داده‌های اولیه را شامل می‌شود.

الهام‌گیری از علوم اعصاب برای فهم مدل‌های هوش مصنوعی

این شیوه جدید، که از تکنیک‌های علوم اعصاب برای مطالعه ساختارهای زیستی الهام گرفته شده است، پیشرفت قابل توجهی در شفاف‌سازی عملکرد مدل‌های هوش مصنوعی به‌شمار می‌رود. این رویکرد می‌تواند ابزار کارآمدی برای ارزیابی مسائل ایمنی در این سیستم‌ها باشد که ممکن است در آزمایش‌های معمول خارجی پنهان بمانند. جاشوا بتسون، محقق شرکت Anthropic، در مصاحبه‌ای اختصاصی اظهار داشت: «مدل‌های هوش مصنوعی توانمندی‌های شگفت‌انگیزی دارند، اما به دلیل نحوه آموزش آن‌ها، هنوز نمی‌دانیم این توانایی‌ها چگونه شکل گرفته‌اند.»

مدل‌های زبانی، از «جعبه سیاه» تا شفافیت نسبی

مدل‌های زبانی بزرگ مانند GPT-4 از OpenAI، Claude از Anthropic، و Gemini از Google توانایی‌های متنوعی از نوشتن کد گرفته تا خلاصه‌سازی مقالات علمی دارند. با این حال، این سیستم‌ها به طور عمده به عنوان «جعبه‌های سیاه» شناخته می‌شوند؛ حتی سازندگان آن‌ها نیز اغلب نمی‌توانند دقیقا توضیح دهند که چگونه مدل‌ها به پاسخ‌های خاص می‌رسند. تکنیک‌های جدید Anthropic، تحت عنوان «ردیابی مدارها» و «گراف‌های تخصیصی»، مسیرهای دقیق فعال‌سازی ویژگی‌های شبیه‌به‌نورون را هنگام انجام وظایف توسط این مدل‌ها آشکار می‌کنند.

برنامه‌ریزی پیشرفته در نوشتن شعر توسط Claude

یکی از کشفیات جالب این تحقیق شواهدی است که نشان می‌دهد Claude هنگام سرودن اشعار، از پیش کلمات قافیه را شناسایی کرده و سپس بر اساس آن‌ها شعر را می‌سازد. برای مثال، اگر از Claude خواسته شود شعری را با کلمه «خرگوش» به پایان برساند، مدل ویژگی‌های مرتبط با این کلمه را در ابتدای خط فعال کرده و جمله را به گونه‌ای طراحی می‌کند که به طور طبیعی به این نتیجه برسد.

قابلیت‌های چندزبانه و استدلال چندمرحله‌ای

این تحقیق همچنین نشان داد که Claude از ساختارهای مشترک و زبان‌ناپذیر برای پردازش مفاهیم در زبان‌های مختلف استفاده می‌کند. برای مثال، زمانی که از مدل خواسته شد معادل مخالف «کوچک» را در زبان‌های مختلف ارائه دهد، از ویژگی‌های مشابهی برای نمایش مفهوم «کوچک» و «مخالفت» در تمامی زبان‌ها استفاده کرد. این یافته نشان‌دهنده توانایی مدل‌ها در انتقال دانش از یک زبان به زبان دیگر و همچنین توسعه نمایش‌های زبان‌محور در مدل‌های بزرگ‌تر است.

چالش‌ها و خطاهای احتمالی در استدلال مدل‌ها

تحقیقات Anthropic همچنین نشان داد که در برخی موارد، استدلال Claude با توضیحاتی که ارائه داده تطابق ندارد. برای نمونه، هنگام حل مسائل پیچیده ریاضی، مدل گاهی فرآیند محاسباتی خود را به نحوی نادرست توضیح می‌دهد. در یک مورد، زمانی که کاربر پاسخ پیشنهادی برای یک مسئله دشوار ارائه می‌کند، Claude به جای استفاده از اصول اولیه، از نتیجه‌ای که دریافت کرده به عقب بازمی‌گردد تا زنجیره‌ای از دلایل بسازد که به آن پاسخ برسد.

چشم‌انداز ایمنی و شفافیت در هوش مصنوعی

این یافته‌ها گامی مهم در مسیر شفاف‌تر و ایمن‌تر کردن سیستم‌های هوش مصنوعی محسوب می‌شوند. درک نحوه تصمیم‌گیری مدل‌ها می‌تواند به محققان اجازه دهد الگوهای استدلالی مشکل‌ساز را شناسایی و اصلاح کنند. به گفته محققان Anthropic، هدف این نوع تحقیقات افزایش ایمنی مدل‌ها و کاهش رفتارهای خطرناک است که ممکن است شامل فریب کاربران یا سوءاستفاده از مدل‌ها باشد.

محدودیت‌ها و آینده تحقیقات

با وجود این دستاوردها، محققان بر این نکته تأکید دارند که این روش‌ها هنوز محدودیت‌های قابل توجهی دارند. این تحلیل‌ها تنها بخش کوچکی از پردازش کلی مدل‌ها را نشان می‌دهد و انجام آزمایش‌های گسترده همچنان زمان‌بر است. جاشوا بتسون گفت: «در حال حاضر، فقط توانسته‌ایم قسمت کوچکی از آنچه در داخل مدل‌ها اتفاق می‌افتد را مشاهده کنیم. کار اصلی هنوز آغاز نشده است.»

با این پیشرفت، شرکت Anthropic گامی مهم در مسیر شفاف‌سازی ذهنیت مدل‌های هوش مصنوعی برداشته است، اما نقشه‌ی کامل تفکرات این سیستم‌ها هنوز کشف نشده و برای رسیدن به این هدف، تحقیقات بیشتری لازم است.

برای اطلاعات بیشتر درباره آخرین اخبار هوش مصنوعی و پیشرفت‌های روز، بخش اخبار سایت بینا ویرا را دنبال کنید.

دستیار صوتی هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا