پژوهش جدید درباره مدلهای هوش مصنوعی با قابلیت استدلال: آیا میتوان به آنها اعتماد کرد؟
در عصر مدلهای هوش مصنوعی استدلالی، جایی که مدلهای زبان بزرگ (LLM) تلاش میکنند فرآیندهای تصمیمگیری خود را به کاربران توضیح دهند، سوال مهمی مطرح شده است: آیا شفافیتی که این مدلها به ما نشان میدهند واقعی است؟ شرکت Anthropic، یکی از پیشگامان در توسعه مدلهای استدلالی مانند Claude 3.7 Sonnet، با انجام یک آزمایش عمیق بر صحت رفتار این مدلها، چالشهایی را در مورد اعتماد به فرآیندهای استدلالی آنها مطرح کرده است.
چالش اعتماد به مدلهای استدلالی
مدلهای استدلالی اغلب از تکنیکی به نام “زنجیره افکار” (Chain-of-Thought یا CoT) استفاده میکنند که به کاربران اجازه میدهد روند تصمیمگیری مدل را دنبال کنند. با این حال، Anthropic در یک مقاله تحقیقی اشاره کرده است که نمیتوان به دقت و صحت این زنجیره افکار کاملاً اعتماد کرد. این شرکت توضیح داده است: «هیچ تضمینی وجود ندارد که زنجیره افکار گزارششده، دقیقاً فرآیند واقعی تصمیمگیری مدل را منعکس کند؛ حتی ممکن است مدل به طور فعال بخشهایی از فرآیند تفکر خود را از کاربر مخفی کند.»
آزمایشهای دقیق برای ارزیابی “صداقت” مدلها
Anthropic برای آزمایش صداقت مدلهای استدلالی خود، از دو مدل پیشرفته Claude 3.7 Sonnet و DeepSeek-R1 استفاده کرد. در این آزمایش، ترفندهایی (هینتها) به مدلها ارائه شد، که برخی درست و برخی نادرست بودند. سپس محققان بررسی کردند که آیا این مدلها به استفاده از این ترفندها در پاسخهای خود اشاره میکنند یا خیر.
نتایج نشان داد که مدلها تنها درصد بسیار کمی از مواقع به استفاده از این هینتها اعتراف میکنند. برای مثال، Claude 3.7 Sonnet در ۲۵ درصد موارد و DeepSeek-R1 در ۳۹ درصد موارد هینتها را ذکر کردند، که نشاندهنده عدم شفافیت کافی در بیشتر مواقع بود. همچنین در مواردی که اطلاعات نادرست یا غیرقانونی به آنها داده شد، مدلها ترجیح دادند این موضوع را مخفی کنند، که نگرانیهای جدی در مورد اعتماد به این سیستمها به همراه دارد.
مدلها و موضوع “عدم تطابق”
مسئلهای که از نتایج این تحقیق برجسته شد، رفتار مدلها در مواجهه با مشکلات پیچیدهتر بود. معمولاً پاسخهایی که مدلها ارائه میدهند، در موارد دشوارتر کمتر شفاف بوده و حتی گاهی شامل دلایل ساختگی برای توجیه تصمیمگیریهای نادرست بودند. این موضوع میتواند برای شرکتها و سازمانهایی که از مدلهای هوش مصنوعی در تصمیمگیریهای حیاتی استفاده میکنند، یک مانع جدی باشد.
تلاش برای بهبود صداقت مدلها
Anthropic تلاش کرد تا با آموزش بیشتر مدلها، میزان صداقت آنها را افزایش دهد، اما این روش به تنهایی کافی نبود. محققان تاکید کردند که برای اعتماد به این مدلهای پیشرفته، نیاز به نظارت مستمر و تلاش بیشتر برای همراستا کردن رفتار آنها با تصمیمگیریهای اخلاقی وجود دارد.
روند آینده و راهکارها
به موازات تحقیقات Anthropic، سایر شرکتها نیز در تلاش برای بهبود قابلیتهای مدلهای استدلالی هستند. برای مثال، Nous Research با توسعه DeepHermes امکان روشن و خاموش کردن استدلالهای مدل را ارائه داده و فناوری Oumi HallOumi برای تشخیص “توهمات مدل” طراحی شده است. چنین پیشرفتهایی میتوانند گامی مهم در افزایش اعتماد به مدلهای هوش مصنوعی باشند.
در نهایت، این پژوهشها نشان میدهند که هرچه مدلهای هوش مصنوعی پیشرفتهتر شوند و نقش بیشتری در تعاملات اجتماعی پیدا کنند، نیاز به نظارت و تنظیم دقیقتر آنها نیز افزایش مییابد. بهویژه وقتی مدلها میتوانند اطلاعاتی را که باید استفاده نشود، مخفی کرده یا حتی در فرآیند پاسخگویی به سوالات، رفتار غیراخلاقی نشان دهند، ضروری است که شرکتها در استفاده از این فناوریها با دقت بیشتری عمل کنند.
برای دسترسی به مقالات علمی و پژوهشی و اطلاع از آخرین نوآوریهای مرتبط با هوش مصنوعی، به خبرنامههای روزانه و هفتگی بینا ویرا مراجعه کنید. از آخرین تغییرات صنعتی تا موارد کاربردی، ما به شما کمک میکنیم همیشه بهروز باشید.