مطالعهای جدید نشان داده است که مدلهای هوش مصنوعی هنوز برای استفاده پزشکی آماده نیستند. در این پژوهش مدلهای زبانی نتوانسته در ۸۰ درصد مواقع تشخیص اولیه مناسبی برای بیماریها داشته باشند. محققان میگویند هوش مصنوعی مولد فاقد قابلیت استدلال مناسب برای استفاده بالینی ایمن است.
محققان بیمارستان Mass General Brigham بوستون دریافتند که چتباتهای هوش مصنوعی در مواجهه با اطلاعات بالینی جامع عملکرد خوبی در تشخیص بیماریها پیدا کردهاند، اما همچنان در تشخیص افتراقی در بیش از ۸۰ درصد مواقع شکست میخورند.
عملکرد ناموفق مدلهای هوش مصنوعی در تشخیص افتراقی بیماریها
پژوهشگران در این مطالعه ۲۱ مدل زبانی بزرگ ازجمله جدیدترین نسخههای جمینای، GPT، گراک، Claude و دیپسیک را آزمایش کردند. آنها این مدلها را از طریق ابزاری موسوم به PrIME-LLM در ۲۹ آزمون بالینی استاندارد تحت ارزیابی قرار دادند. این ابزار تواناییهای مدل را در مراحل مختلف استدلال بالینی بررسی میکند: از تشخیص اولیه و مرتبسازی نتایج آزمایشات گرفته، تا رسیدن به تشخیص نهایی و برنامهریزی برای درمان.

محققان میگویند مدلهای زبانی در رسیدن به تشخیص نهایی دقت بالایی داشتند، اما در تشخیص افتراقی و عبور از تردیدها ضعیف عمل کردند. تشخیص افتراقی مرحلهای حیاتی در تشخیصهای پزشکی است که طی آن متخصصان یک بیماری را شناسایی و آن را از سایر علائم متمایز میکنند.
همه مدلها در بیش از ۸۰ درصد مواقع در تشخیص افتراقی ناموفق عمل میکردند، اما با دریافت اطلاعات جامع، در تشخیص نهایی نرخ موفقیت حدود ۶۰ تا ۹۰ درصدی داشتند. طبق این تحقیق، مدلهای گراک ۴، جیپیتی ۵، جیپیتی ۴.۵، کلود ۴.۵ اوپوس، جمینای ۳ فلش و جمینای ۳ پرو از بقیه بهتر ظاهر شدند.
پژوهشگران یادآور شدهاند که مدلهای عمومی برای استدلال بالینی مهارتهای کافی ندارند و برای این کاربردها باید بهسراغ مدلهای تخصصیتر رفت. بنابراین ضروری است که در صورت استفاده از هوش مصنوعی در امور پزشکی، همچنان انسانها در این فرایند حضور داشته باشند تا نتیجه کار را بررسی کنند.
نتایج این تحقیق در ژورنال JAMA Network Open منتشر شده است.
