تحلیل تازه درباره اعتماد به نفس مدلهای زبانی بزرگ
یک مطالعه جدید که توسط پژوهشگران Google DeepMind و دانشگاه کالج لندن انجام شده است، نشان میدهد چگونه مدلهای زبانی بزرگ (LLMs) به پاسخهای خود اعتماد دارند، آن را حفظ میکنند و در نهایت ممکن است آن را از دست بدهند. این تحقیقات تفاوتها و شباهتهای جالبی را بین سوگیریهای شناختی LLMها و انسانها مشخص میکند.
نتایج نشان میدهد که مدلهای زبانی بزرگ میتوانند نسبت به پاسخهای خود بیش از حد مطمئن باشند، اما در عین حال هنگام مواجهه با یک استدلال مخالف، حتی اگر آن استدلال نادرست باشد، به سرعت اعتماد به نفس خود را از دست میدهند و تغییر نظر میدهند. درک این رفتار میتواند پیامدهای مستقیمی بر نحوه طراحی برنامههای LLM داشته باشد، به ویژه در رابطهای گفتگویی که شامل چندین دور گفتگو هستند.
یکی از عوامل کلیدی در استقرار ایمن LLMها این است که پاسخهای آنها با یک حس اعتماد قابل اعتماد همراه باشد، یعنی احتمال صحت پاسخ توسط مدل. اگرچه ما میدانیم که LLMها میتوانند این مقادیر اعتماد را تولید کنند، اما هنوز مشخص نیست که چگونه میتوانند از آنها برای راهنمایی رفتار تطبیقی استفاده کنند. شواهد تجربیای نیز وجود دارد که نشان میدهد LLMها میتوانند در پاسخهای اولیه خود بیش از حد مطمئن باشند، اما به شدت به نقد و انتقاد حساس هستند و به سرعت نسبت به همان پاسخ کمتر مطمئن میشوند.
برای بررسی این موضوع، پژوهشگران یک آزمایش کنترلشده طراحی کردند تا نحوه بهروزآوری اعتماد LLMها و تصمیمگیری آنها را در صورت ارائه مشاوره خارجی مورد آزمایش قرار دهند. در این آزمایش، ابتدا یک LLM مجبور به پاسخ به یک سؤال دو گزینهای بود. پس از انتخاب اولیه، LLM مشاورهای از یک “LLM مشاور” ساختگی دریافت کرد. این مشاوره با یک امتیاز دقت صریح همراه بود و ممکن بود با یا علیه انتخاب اولیه LLM پاسخدهنده باشد.
جزء کلیدی این آزمایش کنترل این بود که آیا پاسخ اولیه LLM در طول تصمیمگیری نهایی برای آن قابل مشاهده بود یا خیر. این طراحی منحصر به فرد به پژوهشگران اجازه داد تا تأثیر حافظه یک تصمیم گذشته بر اعتماد فعلی را مورد بررسی قرار دهند. شرایط پایه، جایی که پاسخ اولیه پنهان و مشاوره بیطرفانه بود، تعیین کرد که چقدر ممکن است پاسخ LLM صرفاً به دلیل تغییرات تصادفی در پردازش مدل تغییر کند.
تحلیلها بر تغییر اعتماد LLM در انتخاب اولیهاش تمرکز داشت. پژوهشگران در ابتدا بررسی کردند که چگونه قابلیت مشاهده پاسخ خود LLM بر تمایل آن به تغییر پاسخ تأثیر میگذارد. نتایج نشان داد که وقتی مدل میتوانست پاسخ اولیه خود را ببیند، تمایل کمتری به تغییر داشت.
این مطالعه همچنین تأیید کرد که مدلها مشاورههای خارجی را یکپارچه میکنند. هنگامی که LLM با مشاوره مخالف مواجه میشود، تمایل آن به تغییر نظر بیشتر میشود و در صورت دریافت مشاوره حمایتکننده، این تمایل کاهش مییابد. با این حال، آنها دریافتند که این مدل نسبت به اطلاعات متعارض بسیار حساس است و بهروزرسانی اعتماد بیش از حد زیادی را به دنبال دارد.
این نتایج نشان میدهد که سیستمهای هوش مصنوعی به طور کامل منطقی نیستند و میتوانند عدم قطعیتهایی مشابه سوگیریهای انسانی و خاص خود را از خود نشان دهند. برای کاربردهای سازمانی، این موضوع به این معناست که اطلاعات اخیر میتواند تأثیر نامتناسبی بر تصمیمگیری LLMها داشته باشد.
با گنجاندن LLMها در جریانهای کاری سازمانی، درک جزئیات فرآیندهای تصمیمگیری آنها دیگر اختیاری نیست. این تحقیق پایهای به توسعهدهندگان کمک میکند تا پیشبینی و اصلاح این سوگیریهای ذاتی را انجام دهند و به ایجاد برنامههایی با قابلیتهای بالاتر و قابلاعتمادتر منجر شوند.