تحلیل تازه درباره اعتماد به نفس مدل‌های زبانی بزرگ

یک مطالعه جدید که توسط پژوهشگران Google DeepMind و دانشگاه کالج لندن انجام شده است، نشان می‌دهد چگونه مدل‌های زبانی بزرگ (LLMs) به پاسخ‌های خود اعتماد دارند، آن را حفظ می‌کنند و در نهایت ممکن است آن را از دست بدهند. این تحقیقات تفاوت‌ها و شباهت‌های جالبی را بین سوگیری‌های شناختی LLMها و انسان‌ها مشخص می‌کند.

نتایج نشان می‌دهد که مدل‌های زبانی بزرگ می‌توانند نسبت به پاسخ‌های خود بیش از حد مطمئن باشند، اما در عین حال هنگام مواجهه با یک استدلال مخالف، حتی اگر آن استدلال نادرست باشد، به سرعت اعتماد به نفس خود را از دست می‌دهند و تغییر نظر می‌دهند. درک این رفتار می‌تواند پیامدهای مستقیمی بر نحوه طراحی برنامه‌های LLM داشته باشد، به ویژه در رابط‌های گفتگویی که شامل چندین دور گفتگو هستند.

یکی از عوامل کلیدی در استقرار ایمن LLMها این است که پاسخ‌های آن‌ها با یک حس اعتماد قابل اعتماد همراه باشد، یعنی احتمال صحت پاسخ توسط مدل. اگرچه ما می‌دانیم که LLMها می‌توانند این مقادیر اعتماد را تولید کنند، اما هنوز مشخص نیست که چگونه می‌توانند از آن‌ها برای راهنمایی رفتار تطبیقی استفاده کنند. شواهد تجربی‌ای نیز وجود دارد که نشان می‌دهد LLMها می‌توانند در پاسخ‌های اولیه خود بیش از حد مطمئن باشند، اما به شدت به نقد و انتقاد حساس هستند و به سرعت نسبت به همان پاسخ کمتر مطمئن می‌شوند.

برای بررسی این موضوع، پژوهشگران یک آزمایش کنترل‌شده طراحی کردند تا نحوه به‌روزآوری اعتماد LLMها و تصمیم‌گیری آن‌ها را در صورت ارائه مشاوره خارجی مورد آزمایش قرار دهند. در این آزمایش، ابتدا یک LLM مجبور به پاسخ به یک سؤال دو گزینه‌ای بود. پس از انتخاب اولیه، LLM مشاوره‌ای از یک “LLM مشاور” ساختگی دریافت کرد. این مشاوره با یک امتیاز دقت صریح همراه بود و ممکن بود با یا علیه انتخاب اولیه LLM پاسخ‌دهنده باشد.

جزء کلیدی این آزمایش کنترل این بود که آیا پاسخ اولیه LLM در طول تصمیم‌گیری نهایی برای آن قابل مشاهده بود یا خیر. این طراحی منحصر به فرد به پژوهشگران اجازه داد تا تأثیر حافظه یک تصمیم گذشته بر اعتماد فعلی را مورد بررسی قرار دهند. شرایط پایه، جایی که پاسخ اولیه پنهان و مشاوره بی‌طرفانه بود، تعیین کرد که چقدر ممکن است پاسخ LLM صرفاً به دلیل تغییرات تصادفی در پردازش مدل تغییر کند.

تحلیل‌ها بر تغییر اعتماد LLM در انتخاب اولیه‌اش تمرکز داشت. پژوهشگران در ابتدا بررسی کردند که چگونه قابلیت مشاهده پاسخ خود LLM بر تمایل آن به تغییر پاسخ تأثیر می‌گذارد. نتایج نشان داد که وقتی مدل می‌توانست پاسخ اولیه خود را ببیند، تمایل کمتری به تغییر داشت.

این مطالعه همچنین تأیید کرد که مدل‌ها مشاوره‌های خارجی را یکپارچه می‌کنند. هنگامی که LLM با مشاوره مخالف مواجه می‌شود، تمایل آن به تغییر نظر بیشتر می‌شود و در صورت دریافت مشاوره حمایت‌کننده، این تمایل کاهش می‌یابد. با این حال، آن‌ها دریافتند که این مدل نسبت به اطلاعات متعارض بسیار حساس است و به‌روزرسانی اعتماد بیش از حد زیادی را به دنبال دارد.

این نتایج نشان می‌دهد که سیستم‌های هوش مصنوعی به طور کامل منطقی نیستند و می‌توانند عدم قطعیت‌هایی مشابه سوگیری‌های انسانی و خاص خود را از خود نشان دهند. برای کاربردهای سازمانی، این موضوع به این معناست که اطلاعات اخیر می‌تواند تأثیر نامتناسبی بر تصمیم‌گیری LLMها داشته باشد.

با گنجاندن LLMها در جریان‌های کاری سازمانی، درک جزئیات فرآیندهای تصمیم‌گیری آن‌ها دیگر اختیاری نیست. این تحقیق پایه‌ای به توسعه‌دهندگان کمک می‌کند تا پیش‌بینی و اصلاح این سوگیری‌های ذاتی را انجام دهند و به ایجاد برنامه‌هایی با قابلیت‌های بالاتر و قابل‌اعتمادتر منجر شوند.

تحلیل تصویر با هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا