AI 已经能“像医生一样思考”了吗?一项顶级研究给出了冷静答案
很多人都有过这样的体验:看病时医生时间紧、信息不全,诊断往往依赖经验判断。那问题来了——如果把这些复杂病例交给 AI,它真的能做得更好吗?4 月底发表在《Science》的一项研究,首次把最新一代大语言模型,直接拉到真实医学场景中,与数百名医生“正面对比”。
研究团队评估了 OpenAI o1 系列模型在多种临床推理任务中的表现,包括《新英格兰医学杂志》的经典疑难病例、虚拟临床推理训练案例、真实急诊室患者,以及诊断和治疗方案制定等任务。结果显示,在多个实验中,o1 模型在诊断准确率、鉴别诊断质量和管理决策评分上,整体都高于住院医师和资深医生。例如,在 NEJM 疑难病例中,模型 78% 的情况下能把正确诊断纳入鉴别诊断;在真实急诊分诊阶段,模型给出“准确或非常接近正确诊断”的比例达到 67%,高于两位资深内科医生。研究并未深入解释模型“为什么”能做到这一点,只是指出其在信息有限、时间紧迫的场景下,综合文本信息的能力更稳定。
这并不意味着 AI 可以取代医生。作者明确强调,研究仅评估了文本推理能力,而真实医疗还依赖体格检查、影像、声音和情境判断。此外,这些结果主要来自内科和急诊医学,不能代表所有专科。更重要的是,目前研究只是“性能比较”,真正能否改善患者结局,还需要前瞻性临床试验。但可以确定的是,AI 作为“第二意见”的潜力已经非常现实,医疗系统需要开始认真思考如何安全地与它协作。
📖Science ︱arXiv
🗓2026-04-30
#人工智能 #医学诊断 #大语言模型 #临床决策支持
Via:一往无前啊屁林
🧬 频道 | 🧑🔬 群组 | 📨 投稿
很多人都有过这样的体验:看病时医生时间紧、信息不全,诊断往往依赖经验判断。那问题来了——如果把这些复杂病例交给 AI,它真的能做得更好吗?4 月底发表在《Science》的一项研究,首次把最新一代大语言模型,直接拉到真实医学场景中,与数百名医生“正面对比”。
研究团队评估了 OpenAI o1 系列模型在多种临床推理任务中的表现,包括《新英格兰医学杂志》的经典疑难病例、虚拟临床推理训练案例、真实急诊室患者,以及诊断和治疗方案制定等任务。结果显示,在多个实验中,o1 模型在诊断准确率、鉴别诊断质量和管理决策评分上,整体都高于住院医师和资深医生。例如,在 NEJM 疑难病例中,模型 78% 的情况下能把正确诊断纳入鉴别诊断;在真实急诊分诊阶段,模型给出“准确或非常接近正确诊断”的比例达到 67%,高于两位资深内科医生。研究并未深入解释模型“为什么”能做到这一点,只是指出其在信息有限、时间紧迫的场景下,综合文本信息的能力更稳定。
这并不意味着 AI 可以取代医生。作者明确强调,研究仅评估了文本推理能力,而真实医疗还依赖体格检查、影像、声音和情境判断。此外,这些结果主要来自内科和急诊医学,不能代表所有专科。更重要的是,目前研究只是“性能比较”,真正能否改善患者结局,还需要前瞻性临床试验。但可以确定的是,AI 作为“第二意见”的潜力已经非常现实,医疗系统需要开始认真思考如何安全地与它协作。
AI 已经在急诊分诊赢了医生,但离“真正看病”还差好几步 🤖🩺
📖Science ︱arXiv
🗓2026-04-30
#人工智能 #医学诊断 #大语言模型 #临床决策支持
Via:一往无前啊屁林
🧬 频道 | 🧑🔬 群组 | 📨 投稿
❤️ 3