همایش VB Transform، که به‌مدت نزدیک به دو دهه به‌عنوان مرجعی معتبر برای رهبران صنایع شناخته شده است، در سال جاری میزبان افرادی خواهد بود که استراتژی‌های واقعی برای هوش مصنوعی در سطح سازمانی را تدوین می‌کنند. این رویداد فرصتی مناسب برای یادگیری و تبادل نظر در حوزه‌های مرتبط با هوش مصنوعی به شمار می‌رود.

در سال‌های اخیر، توجه رسانه‌ها به مدلسازی زبان‌های بزرگ (LLMs) افزایش یافته است. این مدل‌ها نه تنها قابلیت قبولی در آزمون‌های صدور مجوز پزشکی را دارند، بلکه در بسیاری از موارد، از انسان‌ها نیز بهتر عمل می‌کنند. مدل GPT-4 موفق شد 90 درصد از سؤالات آزمون صدور مجوز پزشکی ایالات متحده را به‌درستی پاسخ دهد، حتی در روزهای آغازین هوش مصنوعی در سال 2023. پس از آن، LLMها در عمل نیز از پزشکان مجاز و ساکنین که این آزمون‌ها را شرکت می‌کنند، بهتر عمل کرده‌اند.

با این حال، به نظر می‌رسد که صرفا داشتن مدرک تحصیلی برای مدل‌های LLM کافی نیست. مانند یک دانشجوی پزشکی برتر که تمامی نام‌های استخوان‌های دست را حفظ کرده اما در مواجهه با صحنه‌های واقعی وحشت‌زده می‌شود، تسلط یک LLM بر دانش پزشکی همیشه به‌طور مستقیم در فضای واقعی قابل‌اجرا نیست.

مطالعه‌ای که توسط محققان دانشگاه آکسفورد انجام شده است، نشان می‌دهد در حالی که LLMها می‌توانند 94.9 درصد از شرایط مرتبط را به‌درستی شناسایی کنند، افراد انسانی که از LLM برای تشخیص استفاده می‌کنند، تنها کمتر از 34.5 درصد از مواقع موفق به شناسایی شرایط صحیح می‌شوند. این موضوع به‌ویژه نگران‌کننده است، زیرا بیماران استفاده‌کننده از LLMها عملکردی حتی بدتر از گروه کنترل داشتند که به‌سادگی به آن‌ها گفته شده بود چه‌طور خود را تشخیص دهند.

این مطالعه شامل 1,298 شرکت‌کننده بود که به‌عنوان بیمار فرضی به LLM مراجعه کرده و موظف بودند تا تشخیص دهند چه عارضه‌ای دارند و چه سطحی از مراقبت باید به آن نیاز داشته باشند – از خودمراقبتی تا تماس با اورژانس. در هر سناریو، جزئیات دقیق پزشکی و زندگی روزمره شرکت‌کنندگان در نظر گرفته شده بود.

همچنین، سه نوع LLM مختلف مورد آزمایش قرار گرفت که شامل GPT-4 با توجه به محبوبیت‌اش، Llama 3 به‌دلیل ویژگی‌های منبع باز و Command R+ برای قابلیت‌های تولید مبتنی بر جستجو بود. اگرچه ممکن بود تصور کنید یک LLM که می‌تواند یک امتحان پزشکی را با موفقیت پشت سر بگذارد، ابزار مناسبی برای کمک به افراد در تشخیص خود باشد، واقعیت چیز دیگری است.

محققان در بررسی‌های خود دریافتند که شرکت‌کنندگان اطلاعات ناقصی به LLM ارائه می‌دهند و LLMها نیز گاهی واژه‌ها و نشانه‌های آنان را اشتباه تفسیر می‌کنند. در واقع، این مطالعه نشان می‌دهد که LLM‌ها در تعامل با انسان‌ها در شرایط واقعی به‌طور مناسب عمل نمی‌کنند.

این مطالعه بر لزوم بازبینی استانداردهایی که برای ارزیابی کارایی LLMها به‌کار می‌بریم و خصوصاً در مورد کاربرد آن‌ها در مشاوره‌های پزشکی تأکید دارد. از این رو، متخصصان توصیه می‌کنند که هنگام طراحی LLMها برای تعامل با انسان‌ها باید به تست‌های واقعی بر اساس تجربیات انسانی پرداخته شود، نه فقط تست‌هایی که برای ارزیابی انسان‌ها طراحی شده‌اند.

این پژوهش به‌ویژه برای مهندسان هوش مصنوعی و متخصصان در زمینه تعامل انسان و فناوری اهمیت بالائی دارد و به ما یادآوری می‌کند که برای بهبود عملکرد LLMها نیاز به درک عمیق از مخاطبان و نحوه تعامل آنها با تکنولوژی داریم.

دستیار صوتی هوش مصنوعی

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

اسکرول به بالا