همایش VB Transform، که بهمدت نزدیک به دو دهه بهعنوان مرجعی معتبر برای رهبران صنایع شناخته شده است، در سال جاری میزبان افرادی خواهد بود که استراتژیهای واقعی برای هوش مصنوعی در سطح سازمانی را تدوین میکنند. این رویداد فرصتی مناسب برای یادگیری و تبادل نظر در حوزههای مرتبط با هوش مصنوعی به شمار میرود.
در سالهای اخیر، توجه رسانهها به مدلسازی زبانهای بزرگ (LLMs) افزایش یافته است. این مدلها نه تنها قابلیت قبولی در آزمونهای صدور مجوز پزشکی را دارند، بلکه در بسیاری از موارد، از انسانها نیز بهتر عمل میکنند. مدل GPT-4 موفق شد 90 درصد از سؤالات آزمون صدور مجوز پزشکی ایالات متحده را بهدرستی پاسخ دهد، حتی در روزهای آغازین هوش مصنوعی در سال 2023. پس از آن، LLMها در عمل نیز از پزشکان مجاز و ساکنین که این آزمونها را شرکت میکنند، بهتر عمل کردهاند.
با این حال، به نظر میرسد که صرفا داشتن مدرک تحصیلی برای مدلهای LLM کافی نیست. مانند یک دانشجوی پزشکی برتر که تمامی نامهای استخوانهای دست را حفظ کرده اما در مواجهه با صحنههای واقعی وحشتزده میشود، تسلط یک LLM بر دانش پزشکی همیشه بهطور مستقیم در فضای واقعی قابلاجرا نیست.
مطالعهای که توسط محققان دانشگاه آکسفورد انجام شده است، نشان میدهد در حالی که LLMها میتوانند 94.9 درصد از شرایط مرتبط را بهدرستی شناسایی کنند، افراد انسانی که از LLM برای تشخیص استفاده میکنند، تنها کمتر از 34.5 درصد از مواقع موفق به شناسایی شرایط صحیح میشوند. این موضوع بهویژه نگرانکننده است، زیرا بیماران استفادهکننده از LLMها عملکردی حتی بدتر از گروه کنترل داشتند که بهسادگی به آنها گفته شده بود چهطور خود را تشخیص دهند.
این مطالعه شامل 1,298 شرکتکننده بود که بهعنوان بیمار فرضی به LLM مراجعه کرده و موظف بودند تا تشخیص دهند چه عارضهای دارند و چه سطحی از مراقبت باید به آن نیاز داشته باشند – از خودمراقبتی تا تماس با اورژانس. در هر سناریو، جزئیات دقیق پزشکی و زندگی روزمره شرکتکنندگان در نظر گرفته شده بود.
همچنین، سه نوع LLM مختلف مورد آزمایش قرار گرفت که شامل GPT-4 با توجه به محبوبیتاش، Llama 3 بهدلیل ویژگیهای منبع باز و Command R+ برای قابلیتهای تولید مبتنی بر جستجو بود. اگرچه ممکن بود تصور کنید یک LLM که میتواند یک امتحان پزشکی را با موفقیت پشت سر بگذارد، ابزار مناسبی برای کمک به افراد در تشخیص خود باشد، واقعیت چیز دیگری است.
محققان در بررسیهای خود دریافتند که شرکتکنندگان اطلاعات ناقصی به LLM ارائه میدهند و LLMها نیز گاهی واژهها و نشانههای آنان را اشتباه تفسیر میکنند. در واقع، این مطالعه نشان میدهد که LLMها در تعامل با انسانها در شرایط واقعی بهطور مناسب عمل نمیکنند.
این مطالعه بر لزوم بازبینی استانداردهایی که برای ارزیابی کارایی LLMها بهکار میبریم و خصوصاً در مورد کاربرد آنها در مشاورههای پزشکی تأکید دارد. از این رو، متخصصان توصیه میکنند که هنگام طراحی LLMها برای تعامل با انسانها باید به تستهای واقعی بر اساس تجربیات انسانی پرداخته شود، نه فقط تستهایی که برای ارزیابی انسانها طراحی شدهاند.
این پژوهش بهویژه برای مهندسان هوش مصنوعی و متخصصان در زمینه تعامل انسان و فناوری اهمیت بالائی دارد و به ما یادآوری میکند که برای بهبود عملکرد LLMها نیاز به درک عمیق از مخاطبان و نحوه تعامل آنها با تکنولوژی داریم.