🤖 AI / ML

请勿轻信聊天机器人提供的医疗建议Please don’t trust your chatbot for medical advice

garymarcus.substack.com·2026-04-21

四项独立研究一致表明，当前主流聊天机器人在提供医疗建议时存在严重错误和误导风险。这些模型常给出看似合理但缺乏临床依据的回答，甚至推荐未经证实的疗法。研究强调，尽管 AI 在信息检索方面表现良好，但在涉及健康决策的关键场景中可靠性远未达标。作者呼吁用户切勿将聊天机器人视为医疗咨询替代方案。

阅读原文

Gary Marcus

还记得我以前常说大型语言模型“经常出错，却从不迟疑”吗？还记得三年前我在《60分钟》节目上警告过，它们是“权威 bullshit”的传播者，绝不能轻信吗？

这至今仍然成立——而且在医学领域尤其适用。

这非常重要，而且影响深远。因为已有大量民众开始向聊天机器人寻求医疗建议。

《华盛顿邮报》今天刊登了一篇措辞严厉的文章，报道了两项相关的新研究。

第一项新研究由BMJ（隶属于英国医学协会）在同行评审期刊上发表，题为《生成式人工智能驱动的聊天机器人与医疗错误信息：准确性、引用规范与可读性审计》。该研究大约一年前对五个热门聊天机器人（Gemini、DeepSeek、Meta AI、ChatGPT 和 Grok）进行了测试，向每个模型提出10个开放式问题，内容涵盖癌症、疫苗和营养等主题，结果发现近一半的回复存在严重问题。更糟糕的是，“聊天机器人的输出始终表现出高度自信和确定性”。这些回复中还充斥着幻觉内容和虚构的参考文献。

所有这些——幻觉、错误和过度自信——都是LLMs的典型特征，在医学领域则完全不可接受。正如作者所言（措辞略显学术，但完全准确）：“若缺乏公众教育和监管，继续部署此类模型将加剧错误信息的传播。”

第二项新研究发表于JAMA Network Open（隶属于美国医学协会），题为《大型语言模型在临床推理任务中的表现》，该研究评估了21个前沿模型对29个问题的回答，并指出：“尽管已有进展，当前LLMs在早期诊断推理方面仍存在局限，尚不能用于无监督的面向患者的临床决策。”

实际上，《邮报》的文章只报道了关于LLMs与医学的新科学文献的一部分。另外两项他们遗漏的新研究，只会进一步加深我们的担忧。

其中一项发表于《自然·医学》，题为《LLMs作为公众医疗助手的可靠性：一项随机预注册研究》。该研究聚焦于“LLMs是否能帮助公众识别潜在病症并选择应对措施”。结果再次清晰且令人不安：LLMs“在不到34.5%的病例中识别出相关病症……表现并不优于对照组”。这里的问题主要不在于LLMs缺乏正确信息——同一研究表明，在训练有素的医生手中，这些模型表现更好——而在于患者不知道如何引导LLMs找到正确的信息路径。

一个反复出现的主题是：LLMs不知道自己不知道什么；它们在自己掌握的信息范围内表现尚可，但不懂得如何进行临床问诊，在普通公众手中很容易给出错误建议，因为无论是患者还是LLMs本身，都未能提出恰当的问题。（而专业医生若能提出正确问题，或许能更有效地利用LLMs。）

另一项新研究同样于近期发表在《Nature Medicine》上，题为《ChatGPT在分诊建议结构化测试中的健康表现》，研究发现“在符合金标准定义的急症病例中，该系统对52%的病例进行了低估分诊（undertriaged）”，并得出结论：“这些发现揭示了高风险急症的漏判以及危机安全机制的不一致触发，凸显出在人工智能分诊系统大规模应用于消费者之前，必须进行前瞻性验证的安全隐患。”

作为一名科学家，我一直在寻找相互印证的证据。短短几个月内，四本期刊相继发表四项研究，得出的结论基本一致，这清楚地表明：聊天机器人，尤其是被非专业人士使用时，根本不可信。

就个人而言，我的朋友本·莱利最近失去了他的父亲。《纽约时报》的泰迪·罗森布卢姆撰写了一篇长文，深情讲述了他的父亲如何被人工智能误导，从而耽误了白血病的治疗。

我希望你有机会读到那篇文章，也读一读本就这一令人痛心的情况所写的博客。

未来或许会有更优秀的模型出现，但就目前而言，在未被证明可靠之前，我们不应将大型语言模型表面上的“自信”——这本身只是其训练方式造成的假象——当作可以托付生命的理由。

无新帖

需要完整排版与评论请前往来源站点阅读。