近半数 AI 聊天机器人医疗回答有问题：五大模型医疗准确性审计当你用 AI 聊天机器人问健康问题时，得到的答案靠谱吗？这项研究对这一问题进行了系统审计

11:59 · 2026年4月16日 · 周四

近半数 AI 聊天机器人医疗回答有问题：五大模型医疗准确性审计

当你用 AI 聊天机器人问健康问题时，得到的答案靠谱吗？这项研究对这一问题进行了系统审计。随着 Gemini、DeepSeek、ChatGPT、Meta AI、Grok 等聊天机器人被大众广泛当作"搜索引擎"使用——包括查询日常健康和医疗问题——其回答质量却鲜有严格审查。

研究人员在 2025 年 2 月对五大主流聊天机器人进行了压力测试：每个机器人回答 10 道来自癌症、疫苗、干细胞、营养和运动表现五个领域的问题，并使用对抗性提示策略（adversarial prompting）故意诱导模型产生错误信息。两位各领域专家按"无问题"/"有些问题"/"严重问题"三级评分。结果显示：近一半（49.6%）的回答存在不同程度的问题，其中 30% 有些问题，19.6% 严重有问题。五个模型之间整体差异不大（p=0.566），但 Grok 产生严重问题回答的比例显著高于随机预期（z=+2.07, p=0.038）。按领域看，疫苗和癌症领域表现最好，干细胞、运动表现和营养最差。值得注意的是，250 道题中仅有 2 次拒绝回答（0.8%，均来自 Meta AI），其余回答一律语气笃定。引用质量同样堪忧：中位完整度仅 40%，所有模型都存在幻觉和捏造引用，没有一款能给出完全准确的参考文献列表。可读性评分全部落在"困难"级别，相当于大学二三年级水平。

这项研究揭示了一个令人担忧的现实：主流 AI 聊天机器人在面对易产生错误信息的医疗健康问题时表现不佳，却总以自信笃定的口吻输出——用户很难分辨真伪。在缺乏公众教育和监管框架的情况下，继续放任这些工具处理健康咨询，可能反而成为错误信息的放大器。

AI 看病信不得——一半回答有问题，引用基本靠编，但语气比你主治医师还自信 🙃

“运动表现和营养最差。”贴近民众的问题都回答不好，看来，AI看病还有待喂更多有用数据。

📖BMJ Open
🗓2026-04-14

#AI医疗 #人工智能 #医学信息 #错误信息

Via：乘风破浪派大星

🧬 频道｜ 🧑‍🔬 群组｜ 📨 投稿

👍 4