哈佛研究:AI急诊诊断准确率超越人类医生,67% vs 55%
📅 2026年5月3日📰 TechCrunch⏱️ 阅读时间 4 分钟
🏥 AI看病比人准?哈佛研究发现AI急诊诊断准确率67%,超越人类医生的55%,但离替代还有很长的路。
研究背景
哈佛医学院和贝斯以色列女执事医疗中心的研究团队,比较了OpenAI的o1和4o模型与两位内科主治医生在急诊室诊断中的表现。
这项研究发表在顶尖学术期刊《科学》(Science)上,引发了医学界和AI界的广泛关注。
实验设计:盲评对决
研究分析了76名急诊患者的真实病例。
实验方法非常严格:
- 两位评估医生在不知道诊断来源(AI或人类)的情况下进行盲评
- 提供给AI的是电子病历中的原始文本信息,未经过任何预处理
- 评估标准为诊断是否「精确或非常接近」
核心数据:AI胜出
📊 o1模型:67%准确率 | 人类医生A:55% | 人类医生B:50%
尤其值得注意的是,这个优势在初步分诊阶段(信息最少、决策最紧迫)最为明显。
这意味着:
- 在最需要快速判断的时刻,AI可能比人类更精准
- AI不会因为疲劳、压力或经验偏差而影响判断
- AI可以在几秒内综合所有病史信息
但别急着下结论
研究者和业内专家也指出了重要的局限性:
⚠️ 研究比较的是AI与内科医生,而非急诊科医生。急诊医生的首要目标是识别危及生命的状况,而非猜测最终诊断。
其他关键限制:
- 样本量: 仅76个病例,需要更大规模验证
- 责任框架缺失: AI诊断出错,谁来负责?
- 临床整合: 如何在真实的急诊流程中使用AI?
- 患者信任: 患者是否愿意接受AI的诊断?
研究者的态度
研究者之一Adam Rodman明确警告:
🎯 这不是主张AI已能替代人类医生进行生死决策,而是呼吁在真实的临床环境中进行前瞻性试验。
目前对于AI诊断尚无明确的责任认定框架,患者仍期望由人类医生主导关键决策。AI更可能是医生的「第二意见」,而非替代者。
📰 来源:TechCrunch / Harvard Medical School / Science