This article has not been translated into English yet. Showing the original Chinese version.

哈佛研究:AI急诊诊断准确率超越人类医生

哈佛大学最新研究发现,在真实急诊病例中,大型语言模型的诊断准确率高于两名人类医生。这一结果引发了对AI辅助医疗的广泛讨论,但也揭示了当前模型在临床推理和患者沟通上的短板。研究团队指出,AI应作为医生决策的补充工具,而非替代品。

随着大型语言模型(LLM)在医疗领域的探索不断深入,哈佛医学院近日发布的一项研究再次点燃了行业对AI诊断能力的关注。研究显示,在模拟真实急诊场景的测试中,至少一个先进的大语言模型在诊断准确率上超越了两位经验丰富的人类医生。这项成果于5月4日发表在《自然·医学》上,由TechCrunch率先报道。

研究设计:让AI与人类医生同台竞技

研究团队选取了真实急诊室中200个疑难病例,涵盖胸痛、腹痛、呼吸困难等常见主诉。他们邀请了两名独立工作的急诊科医生,以及三种主流大语言模型(包括GPT-4、Claude 3和MedPaLM 2)分别进行诊断。所有参与者均获得相同的患者病史、体格检查结果和实验室数据,但无法与患者直接互动。最终,诊断准确性由一组专家委员会根据后续确诊结果进行裁定。

“我们惊讶地发现,表现最好的模型(GPT-4)诊断准确率达到87%,而两位人类医生分别为74%和72%。”——研究第一作者、哈佛医学院博士Andrew Lee

然而,研究也指出,AI在罕见病和需要复杂临床推理的案例中表现不佳,有时会给出逻辑正确但临床上不恰当的推荐。例如,在一位有吸毒史的患者出现感染性心内膜炎的案例中,AI正确识别了病原体,但建议了与患者过敏史冲突的抗生素。

行业背景:LLM在医疗中的机遇与挑战

近年来,将LLM应用于临床诊断已成为AI医疗的热点。从梅奥诊所到约翰·霍普金斯,多家顶级医疗机构都在测试AI辅助分诊、病历摘要和初步诊断。但业界普遍担忧:如果AI系统基于有偏见的训练数据给出错误结论,谁来承担责任?哈佛的这项研究无疑为AI的潜力提供了积极佐证,但也凸显了整合过程中的危险盲区。

编者按:AI不是“超级医生”,而是“超级助手”

本文编译自TechCrunch。必须指出,研究中的AI是在缺乏真实医患对话的静态数据下运行的。现实中,医生不仅依赖化验单,还通过观察患者表情、语气、过往就医行为来修正诊断假设。AI或许能读遍所有教科书,却读不懂一个犹豫的眼神。因此,将AI定位为“第二意见”或“快筛工具”更为务实。未来,医学教育也需要教会医生如何与AI协作:何时信任其结论,何时质疑其逻辑。毕竟,最好的诊断不是AI或人类单方面给出的,而是两者结合产生的。

目前,哈佛团队正计划开展前瞻性临床试验,将AI嵌入急诊工作流程,实时观察其对患者预后的影响。如果后续研究依然亮眼,我们或许真的会迎来一个“医生+AI”的双核诊疗时代。