مطالعه دانشگاه هاروارد: هوش مصنوعی در اورژانس تشخیص‌هایی دقیق‌تر از دو پزشک ارائه کرد

خلاصه خبر
یک مطالعه تازه از تیمی متشکل از پزشکان و دانشمندان رایانه در دانشکده پزشکی هاروارد و مرکز پزشکی Beth Israel Deaconess که در نشریه Science منتشر شده است، عملکرد مدل‌های زبانی بزرگ در موقعیت‌های پزشکی واقعی را بررسی کرده و نشان می‌دهد در برخی آزمون‌های اورژانسی یک مدل زبانی عملکردی نزدیک یا حتی بهتر از پزشکان داشته است.

روش پژوهش
محققان مجموعه‌ای از آزمایش‌ها را طراحی کردند تا مقایسه‌ای مستقیم بین پاسخ‌های پزشکی انسان‌ها و مدل‌های OpenAI (نسخه‌های o1 و 4o) انجام دهند. در یکی از اصلی‌ترین آزمایش‌ها، اطلاعات 76 بیمار مراجعه‌کننده به اورژانس Beth Israel بررسی شد. برای هر بیمار، دو پزشک متخصص داخلی تشخیص‌های خود را ثبت کردند و همان‌طور داده‌ها به صورت متنی و بدون پیش‌پردازش به مدل‌های AI داده شد. سپس دو پزشک دیگر (بدون اطلاع از منشاء تشخیص‌ها) این پاسخ‌ها را ارزیابی کردند تا تعصبی در قضاوت ایجاد نشود.

نتایج کلیدی
– مدل o1 در هر مرحله تشخیصی یا اندکی بهتر از پزشکان و یا در سطح برابر با آن‌ها ظاهر شد؛ تفاوت در مرحله نخست تریاژ اورژانس (زمانی که اطلاعات کم و تصمیم‌گیری فوری ضروری است) بارزتر بود.
– در مرحله تریاژ اولیه، مدل o1 در 67٪ موارد تشخیص «دقیق یا بسیار نزدیک» ارائه داد؛ در حالی که یکی از پزشکان به میزان 55٪ و دیگری 50٪ به این سطح از دقت رسیدند.
– محققان تأکید کردند که داده‌ها بدون هرگونه پیش‌پردازش در اختیار مدل‌ها قرار گرفته و مدل همان اطلاعات متنی موجود در پرونده پزشکی الکترونیک را دریافت کرده است.

تفسیر و محدودیت‌ها
نویسندگان مطالعه صراحتاً این موضوع را روشن کرده‌اند که نتایج به معنای آماده‌بودن مدل‌های زبانی برای گرفتن تصمیمات حیاتیِ زندگی یا مرگ در اتاق اورژانس نیست. این پژوهش نشان‌دهنده پتانسیل بالینی است اما نه مجوز عملیاتی بدون مطالعات آینده‌نگر و ارزیابی‌های بالینی در شرایط واقعی بیمارستانی. از سوی دیگر، مطالعه تنها بر داده‌های متنی مبتنی بود و خود محققان اشاره کردند که مدل‌های پایه فعلی در پردازش و استدلال روی ورودی‌های غیرمتنی (مانند تصاویر رادیولوژی یا سیگنال‌های بیوفیزیولوژیک) محدودیت‌هایی دارند.

ملاحظات اخلاقی و حرفه‌ای
پزشکان مشارکت‌کننده در مطالعه نیز درباره چارچوب پاسخگویی و مسئولیت حقوقی تشخیص‌های مبتنی بر هوش مصنوعی هشدار داده‌اند. Adam Rodman، یکی از نویسندگان مطالعه، به فقدان «چارچوب رسمی برای پاسخگویی» در تشخیص‌های تولیدشده توسط AI اشاره کرده و تأکید کرده که بسیاری از بیماران همچنان خواهان راهنمایی انسانی در تصمیمات حیاتی هستند.

دیدگاه‌های انتقادی
کریستن پانتاگانی، پزشک اورژانس، در واکنش به گزارش‌ها یادآور شد که تیترهای رسانه‌ای اغلب بیش از حد بزرگ‌نمایی شده‌اند، زیرا مقایسه انجام‌شده بین مدل‌های AI و پزشکان متخصص داخلی بوده است نه پزشکان اورژانس. او تأکید کرد که هدف اصلی پزشک اورژانس در مواجهه نخست با بیمار، یافتن شرایط تهدیدکننده حیات است نه لزوماً تعیین تشخیص نهایی؛ بنابراین مقایسه با متخصصان مرتبطِ هر حوزه بالینی می‌تواند ارزیابی معقول‌تری ارائه دهد.

پیامدها برای سیستم سلامت و گام‌های بعدی
این مطالعه می‌تواند نقطه عطفی برای پژوهش‌های بعدی در کاربرد مدل‌های زبانی بزرگ به‌عنوان ابزار کمکی در فرایند تریاژ و تصمیم‌گیری‌های بالینی باشد. با این حال برای استقرار امن و مقرون‌به‌صرفه این فناوری در محیط‌های بالینی نیاز به:
– آزمایش‌های کنترل‌شده و آینده‌نگر در شرایط واقعی بیمارستانی،
– توسعه چارچوب‌های قانونی و اخلاقی برای مسئولیت‌پذیری،
– ارزیابی توانایی مدل‌ها در تحلیل ورودی‌های چندرسانه‌ای (تصاویر، سیگنال‌ها)، و
– مکانیزم‌های شفافیت و توضیح‌پذیری تصمیمات AI وجود دارد.

نتیجه‌گیری
مطالعه هاروارد و Beth Israel نشان می‌دهد مدل‌های زبانی بزرگ می‌توانند در برخی مأموریت‌های تشخیصی، به‌ویژه در تریاژ اولیه اورژانس، ابزاری ارزشمند برای پشتیبانی بالینی باشند؛ اما این نتایج را باید با احتیاط تفسیر کرد. مسیر تبدیل این توانایی‌ها به ابزارهای بالینی ایمن و قابل اعتماد، نیازمند پژوهش‌های بیشتر، تنظیم مقررات و نظارت حرفه‌ای دقیق است.

ساخت تصویر با هوش مصنوعی

مطالعه دانشگاه هاروارد: هوش مصنوعی در اورژانس تشخیص‌هایی دقیق‌تر از دو پزشک ارائه کرد

دیدگاه‌ خود را بنویسید لغو پاسخ