پیشرفتهای جدید در تحلیل مدلهای زبانی بزرگ توسط Anthropic: راهی به سوی شفافیت در هوش مصنوعی
شرکت Anthropic از روشهای جدیدی برای بررسی و تحلیل مدلهای زبانی بزرگ (LLMs) مانند Claude پردهبرداری کرده است که برای نخستین بار نحوه پردازش اطلاعات و تصمیمگیری در این سیستمها را با جزئیات بیشتری آشکار میکند. تحقیقات جدید که در دو مقاله علمی منتشر شدهاند، نشان میدهند که این مدلها از قابلیتهایی پیچیدهتر از آنچه قبلاً تصور میشد برخوردارند. این تحقیق، روشهایی نوین مانند برنامهریزی پیشرفته در نوشتن شعر، استفاده از الگوهای مشابه برای تحلیل مفاهیم فارغ از زبان، و حتی اتخاذ رویکرد معکوس از نتیجه به دادههای اولیه را شامل میشود.
الهامگیری از علوم اعصاب برای فهم مدلهای هوش مصنوعی
این شیوه جدید، که از تکنیکهای علوم اعصاب برای مطالعه ساختارهای زیستی الهام گرفته شده است، پیشرفت قابل توجهی در شفافسازی عملکرد مدلهای هوش مصنوعی بهشمار میرود. این رویکرد میتواند ابزار کارآمدی برای ارزیابی مسائل ایمنی در این سیستمها باشد که ممکن است در آزمایشهای معمول خارجی پنهان بمانند. جاشوا بتسون، محقق شرکت Anthropic، در مصاحبهای اختصاصی اظهار داشت: «مدلهای هوش مصنوعی توانمندیهای شگفتانگیزی دارند، اما به دلیل نحوه آموزش آنها، هنوز نمیدانیم این تواناییها چگونه شکل گرفتهاند.»
مدلهای زبانی، از «جعبه سیاه» تا شفافیت نسبی
مدلهای زبانی بزرگ مانند GPT-4 از OpenAI، Claude از Anthropic، و Gemini از Google تواناییهای متنوعی از نوشتن کد گرفته تا خلاصهسازی مقالات علمی دارند. با این حال، این سیستمها به طور عمده به عنوان «جعبههای سیاه» شناخته میشوند؛ حتی سازندگان آنها نیز اغلب نمیتوانند دقیقا توضیح دهند که چگونه مدلها به پاسخهای خاص میرسند. تکنیکهای جدید Anthropic، تحت عنوان «ردیابی مدارها» و «گرافهای تخصیصی»، مسیرهای دقیق فعالسازی ویژگیهای شبیهبهنورون را هنگام انجام وظایف توسط این مدلها آشکار میکنند.
برنامهریزی پیشرفته در نوشتن شعر توسط Claude
یکی از کشفیات جالب این تحقیق شواهدی است که نشان میدهد Claude هنگام سرودن اشعار، از پیش کلمات قافیه را شناسایی کرده و سپس بر اساس آنها شعر را میسازد. برای مثال، اگر از Claude خواسته شود شعری را با کلمه «خرگوش» به پایان برساند، مدل ویژگیهای مرتبط با این کلمه را در ابتدای خط فعال کرده و جمله را به گونهای طراحی میکند که به طور طبیعی به این نتیجه برسد.
قابلیتهای چندزبانه و استدلال چندمرحلهای
این تحقیق همچنین نشان داد که Claude از ساختارهای مشترک و زبانناپذیر برای پردازش مفاهیم در زبانهای مختلف استفاده میکند. برای مثال، زمانی که از مدل خواسته شد معادل مخالف «کوچک» را در زبانهای مختلف ارائه دهد، از ویژگیهای مشابهی برای نمایش مفهوم «کوچک» و «مخالفت» در تمامی زبانها استفاده کرد. این یافته نشاندهنده توانایی مدلها در انتقال دانش از یک زبان به زبان دیگر و همچنین توسعه نمایشهای زبانمحور در مدلهای بزرگتر است.
چالشها و خطاهای احتمالی در استدلال مدلها
تحقیقات Anthropic همچنین نشان داد که در برخی موارد، استدلال Claude با توضیحاتی که ارائه داده تطابق ندارد. برای نمونه، هنگام حل مسائل پیچیده ریاضی، مدل گاهی فرآیند محاسباتی خود را به نحوی نادرست توضیح میدهد. در یک مورد، زمانی که کاربر پاسخ پیشنهادی برای یک مسئله دشوار ارائه میکند، Claude به جای استفاده از اصول اولیه، از نتیجهای که دریافت کرده به عقب بازمیگردد تا زنجیرهای از دلایل بسازد که به آن پاسخ برسد.
چشمانداز ایمنی و شفافیت در هوش مصنوعی
این یافتهها گامی مهم در مسیر شفافتر و ایمنتر کردن سیستمهای هوش مصنوعی محسوب میشوند. درک نحوه تصمیمگیری مدلها میتواند به محققان اجازه دهد الگوهای استدلالی مشکلساز را شناسایی و اصلاح کنند. به گفته محققان Anthropic، هدف این نوع تحقیقات افزایش ایمنی مدلها و کاهش رفتارهای خطرناک است که ممکن است شامل فریب کاربران یا سوءاستفاده از مدلها باشد.
محدودیتها و آینده تحقیقات
با وجود این دستاوردها، محققان بر این نکته تأکید دارند که این روشها هنوز محدودیتهای قابل توجهی دارند. این تحلیلها تنها بخش کوچکی از پردازش کلی مدلها را نشان میدهد و انجام آزمایشهای گسترده همچنان زمانبر است. جاشوا بتسون گفت: «در حال حاضر، فقط توانستهایم قسمت کوچکی از آنچه در داخل مدلها اتفاق میافتد را مشاهده کنیم. کار اصلی هنوز آغاز نشده است.»
با این پیشرفت، شرکت Anthropic گامی مهم در مسیر شفافسازی ذهنیت مدلهای هوش مصنوعی برداشته است، اما نقشهی کامل تفکرات این سیستمها هنوز کشف نشده و برای رسیدن به این هدف، تحقیقات بیشتری لازم است.
برای اطلاعات بیشتر درباره آخرین اخبار هوش مصنوعی و پیشرفتهای روز، بخش اخبار سایت بینا ویرا را دنبال کنید.