Skip to main content

近半数 AI 聊天机器人医疗回答有问题:五大模型医疗准确性审计当你用 AI 聊天机器人问健康问题时,得到的答案靠谱吗?这项研究对这一问题进行了系统审计

  1. 近半数 AI 聊天机器人医疗回答有问题:五大模型医疗准确性审计

    当你用 AI 聊天机器人问健康问题时,得到的答案靠谱吗?这项研究对这一问题进行了系统审计。随着 Gemini、DeepSeek、ChatGPT、Meta AI、Grok 等聊天机器人被大众广泛当作"搜索引擎"使用——包括查询日常健康和医疗问题——其回答质量却鲜有严格审查。

    研究人员在 2025 年 2 月对五大主流聊天机器人进行了压力测试:每个机器人回答 10 道来自癌症、疫苗、干细胞、营养和运动表现五个领域的问题,并使用对抗性提示策略(adversarial prompting)故意诱导模型产生错误信息。两位各领域专家按"无问题"/"有些问题"/"严重问题"三级评分。结果显示:近一半(49.6%)的回答存在不同程度的问题,其中 30% 有些问题,19.6% 严重有问题。五个模型之间整体差异不大(p=0.566),但 Grok 产生严重问题回答的比例显著高于随机预期(z=+2.07, p=0.038)。按领域看,疫苗和癌症领域表现最好,干细胞、运动表现和营养最差。值得注意的是,250 道题中仅有 2 次拒绝回答(0.8%,均来自 Meta AI),其余回答一律语气笃定。引用质量同样堪忧:中位完整度仅 40%,所有模型都存在幻觉和捏造引用,没有一款能给出完全准确的参考文献列表。可读性评分全部落在"困难"级别,相当于大学二三年级水平。

    这项研究揭示了一个令人担忧的现实:主流 AI 聊天机器人在面对易产生错误信息的医疗健康问题时表现不佳,却总以自信笃定的口吻输出——用户很难分辨真伪。在缺乏公众教育和监管框架的情况下,继续放任这些工具处理健康咨询,可能反而成为错误信息的放大器。

    AI 看病信不得——一半回答有问题,引用基本靠编,但语气比你主治医师还自信 🙃

    “运动表现和营养最差。”贴近民众的问题都回答不好,看来,AI看病还有待喂更多有用数据。


    📖BMJ Open
    🗓2026-04-14

    #AI医疗 #人工智能 #医学信息 #错误信息

    Via:乘风破浪派大星

    🧬 频道🧑‍🔬 群组📨 投稿
    👍 4