خلاصه خبر
یک مطالعه تازه از تیمی متشکل از پزشکان و دانشمندان رایانه در دانشکده پزشکی هاروارد و مرکز پزشکی Beth Israel Deaconess که در نشریه Science منتشر شده است، عملکرد مدلهای زبانی بزرگ در موقعیتهای پزشکی واقعی را بررسی کرده و نشان میدهد در برخی آزمونهای اورژانسی یک مدل زبانی عملکردی نزدیک یا حتی بهتر از پزشکان داشته است.
روش پژوهش
محققان مجموعهای از آزمایشها را طراحی کردند تا مقایسهای مستقیم بین پاسخهای پزشکی انسانها و مدلهای OpenAI (نسخههای o1 و 4o) انجام دهند. در یکی از اصلیترین آزمایشها، اطلاعات 76 بیمار مراجعهکننده به اورژانس Beth Israel بررسی شد. برای هر بیمار، دو پزشک متخصص داخلی تشخیصهای خود را ثبت کردند و همانطور دادهها به صورت متنی و بدون پیشپردازش به مدلهای AI داده شد. سپس دو پزشک دیگر (بدون اطلاع از منشاء تشخیصها) این پاسخها را ارزیابی کردند تا تعصبی در قضاوت ایجاد نشود.
نتایج کلیدی
– مدل o1 در هر مرحله تشخیصی یا اندکی بهتر از پزشکان و یا در سطح برابر با آنها ظاهر شد؛ تفاوت در مرحله نخست تریاژ اورژانس (زمانی که اطلاعات کم و تصمیمگیری فوری ضروری است) بارزتر بود.
– در مرحله تریاژ اولیه، مدل o1 در 67٪ موارد تشخیص «دقیق یا بسیار نزدیک» ارائه داد؛ در حالی که یکی از پزشکان به میزان 55٪ و دیگری 50٪ به این سطح از دقت رسیدند.
– محققان تأکید کردند که دادهها بدون هرگونه پیشپردازش در اختیار مدلها قرار گرفته و مدل همان اطلاعات متنی موجود در پرونده پزشکی الکترونیک را دریافت کرده است.
تفسیر و محدودیتها
نویسندگان مطالعه صراحتاً این موضوع را روشن کردهاند که نتایج به معنای آمادهبودن مدلهای زبانی برای گرفتن تصمیمات حیاتیِ زندگی یا مرگ در اتاق اورژانس نیست. این پژوهش نشاندهنده پتانسیل بالینی است اما نه مجوز عملیاتی بدون مطالعات آیندهنگر و ارزیابیهای بالینی در شرایط واقعی بیمارستانی. از سوی دیگر، مطالعه تنها بر دادههای متنی مبتنی بود و خود محققان اشاره کردند که مدلهای پایه فعلی در پردازش و استدلال روی ورودیهای غیرمتنی (مانند تصاویر رادیولوژی یا سیگنالهای بیوفیزیولوژیک) محدودیتهایی دارند.
ملاحظات اخلاقی و حرفهای
پزشکان مشارکتکننده در مطالعه نیز درباره چارچوب پاسخگویی و مسئولیت حقوقی تشخیصهای مبتنی بر هوش مصنوعی هشدار دادهاند. Adam Rodman، یکی از نویسندگان مطالعه، به فقدان «چارچوب رسمی برای پاسخگویی» در تشخیصهای تولیدشده توسط AI اشاره کرده و تأکید کرده که بسیاری از بیماران همچنان خواهان راهنمایی انسانی در تصمیمات حیاتی هستند.
دیدگاههای انتقادی
کریستن پانتاگانی، پزشک اورژانس، در واکنش به گزارشها یادآور شد که تیترهای رسانهای اغلب بیش از حد بزرگنمایی شدهاند، زیرا مقایسه انجامشده بین مدلهای AI و پزشکان متخصص داخلی بوده است نه پزشکان اورژانس. او تأکید کرد که هدف اصلی پزشک اورژانس در مواجهه نخست با بیمار، یافتن شرایط تهدیدکننده حیات است نه لزوماً تعیین تشخیص نهایی؛ بنابراین مقایسه با متخصصان مرتبطِ هر حوزه بالینی میتواند ارزیابی معقولتری ارائه دهد.
پیامدها برای سیستم سلامت و گامهای بعدی
این مطالعه میتواند نقطه عطفی برای پژوهشهای بعدی در کاربرد مدلهای زبانی بزرگ بهعنوان ابزار کمکی در فرایند تریاژ و تصمیمگیریهای بالینی باشد. با این حال برای استقرار امن و مقرونبهصرفه این فناوری در محیطهای بالینی نیاز به:
– آزمایشهای کنترلشده و آیندهنگر در شرایط واقعی بیمارستانی،
– توسعه چارچوبهای قانونی و اخلاقی برای مسئولیتپذیری،
– ارزیابی توانایی مدلها در تحلیل ورودیهای چندرسانهای (تصاویر، سیگنالها)، و
– مکانیزمهای شفافیت و توضیحپذیری تصمیمات AI وجود دارد.
نتیجهگیری
مطالعه هاروارد و Beth Israel نشان میدهد مدلهای زبانی بزرگ میتوانند در برخی مأموریتهای تشخیصی، بهویژه در تریاژ اولیه اورژانس، ابزاری ارزشمند برای پشتیبانی بالینی باشند؛ اما این نتایج را باید با احتیاط تفسیر کرد. مسیر تبدیل این تواناییها به ابزارهای بالینی ایمن و قابل اعتماد، نیازمند پژوهشهای بیشتر، تنظیم مقررات و نظارت حرفهای دقیق است.
