微软MAI-DxO诊断系统研究表现亮眼,但尚未临床落地

微软 MAI Diagnostic Orchestrator 在 NEJM 复杂病例研究中达到约 80% 至 85.5% 的诊断准确率,高于受限条件下医生组约 20% 的表现。但该系统仍处研究阶段,不能直接等同临床可用产品。

微软 AI 团队披露的 MAI Diagnostic Orchestrator(MAI-DxO)研究显示,该系统在复杂医学病例诊断任务上表现显著高于医生对照组。公开报道显示,MAI-DxO 搭配 OpenAI o3 模型时,解决 NEJM 复杂病例的比例超过八成;相关论文给出的最高配置准确率为 85.5%。

这个结果容易被误读为“AI 已经可以替代医生”。更准确的理解是:微软把 NEJM 的复杂病例改造成逐步诊断任务,让系统像医生一样请求检查、收集信息并给出诊断。医生对照组则是在没有同事、教材或 AI 工具辅助的受限条件下完成任务。

研究价值与现实距离 MAI-DxO 的价值在于展示了“诊断编排器”方法:不是单个模型直接猜答案,而是让系统分步骤提出假设、选择检查、控制成本并逐步收敛诊断。这对未来临床决策支持工具有参考意义。

但微软也承认,这一系统还不是临床可用产品。复杂病例基准不能完全代表真实医院场景,真实诊疗还涉及患者沟通、责任划分、病史噪声、检查可得性和监管审批。

应该怎样看待这项进展 MAI-DxO 是医疗 AI 的重要研究进展,而不是已经上线的自动诊断医生。它说明大模型在结构化推理和检查选择上有潜力,但离真实临床部署仍需要更多验证。


人工复核来源:The Guardian