请勿轻信聊天机器人提供的医疗建议Please don’t trust your chatbot for medical advice
四项独立研究一致表明,当前主流聊天机器人在提供医疗建议时存在严重错误和误导风险。这些模型常给出看似合理但缺乏临床依据的回答,甚至推荐未经证实的疗法。研究强调,尽管 AI 在信息检索方面表现良好,但在涉及健康决策的关键场景中可靠性远未达标。作者呼吁用户切勿将聊天机器人视为医疗咨询替代方案。
Gary Marcus
还记得我以前常说大型语言模型“经常出错,却从不迟疑”吗?还记得三年前我在《60分钟》节目上警告过,它们是“权威 bullshit”的传播者,绝不能轻信吗?
这至今仍然成立——而且在医学领域尤其适用。
这非常重要,而且影响深远。因为已有大量民众开始向聊天机器人寻求医疗建议。
《华盛顿邮报》今天刊登了一篇措辞严厉的文章,报道了两项相关的新研究。
第一项新研究由BMJ(隶属于英国医学协会)在同行评审期刊上发表,题为《生成式人工智能驱动的聊天机器人与医疗错误信息:准确性、引用规范与可读性审计》。该研究大约一年前对五个热门聊天机器人(Gemini、DeepSeek、Meta AI、ChatGPT 和 Grok)进行了测试,向每个模型提出10个开放式问题,内容涵盖癌症、疫苗和营养等主题,结果发现近一半的回复存在严重问题。更糟糕的是,“聊天机器人的输出始终表现出高度自信和确定性”。这些回复中还充斥着幻觉内容和虚构的参考文献。
所有这些——幻觉、错误和过度自信——都是LLMs的典型特征,在医学领域则完全不可接受。正如作者所言(措辞略显学术,但完全准确):“若缺乏公众教育和监管,继续部署此类模型将加剧错误信息的传播。”
第二项新研究发表于JAMA Network Open(隶属于美国医学协会),题为《大型语言模型在临床推理任务中的表现》,该研究评估了21个前沿模型对29个问题的回答,并指出:“尽管已有进展,当前LLMs在早期诊断推理方面仍存在局限,尚不能用于无监督的面向患者的临床决策。”
实际上,《邮报》的文章只报道了关于LLMs与医学的新科学文献的一部分。另外两项他们遗漏的新研究,只会进一步加深我们的担忧。
其中一项发表于《自然·医学》,题为《LLMs作为公众医疗助手的可靠性:一项随机预注册研究》。该研究聚焦于“LLMs是否能帮助公众识别潜在病症并选择应对措施”。结果再次清晰且令人不安:LLMs“在不到34.5%的病例中识别出相关病症……表现并不优于对照组”。这里的问题主要不在于LLMs缺乏正确信息——同一研究表明,在训练有素的医生手中,这些模型表现更好——而在于患者不知道如何引导LLMs找到正确的信息路径。
一个反复出现的主题是:LLMs不知道自己不知道什么;它们在自己掌握的信息范围内表现尚可,但不懂得如何进行临床问诊,在普通公众手中很容易给出错误建议,因为无论是患者还是LLMs本身,都未能提出恰当的问题。(而专业医生若能提出正确问题,或许能更有效地利用LLMs。)
另一项新研究同样于近期发表在《Nature Medicine》上,题为《ChatGPT在分诊建议结构化测试中的健康表现》,研究发现“在符合金标准定义的急症病例中,该系统对52%的病例进行了低估分诊(undertriaged)”,并得出结论:“这些发现揭示了高风险急症的漏判以及危机安全机制的不一致触发,凸显出在人工智能分诊系统大规模应用于消费者之前,必须进行前瞻性验证的安全隐患。”
作为一名科学家,我一直在寻找相互印证的证据。短短几个月内,四本期刊相继发表四项研究,得出的结论基本一致,这清楚地表明:聊天机器人,尤其是被非专业人士使用时,根本不可信。
就个人而言,我的朋友本·莱利最近失去了他的父亲。《纽约时报》的泰迪·罗森布卢姆撰写了一篇长文,深情讲述了他的父亲如何被人工智能误导,从而耽误了白血病的治疗。
我希望你有机会读到那篇文章,也读一读本就这一令人痛心的情况所写的博客。
未来或许会有更优秀的模型出现,但就目前而言,在未被证明可靠之前,我们不应将大型语言模型表面上的“自信”——这本身只是其训练方式造成的假象——当作可以托付生命的理由。
无新帖
需要完整排版与评论请前往来源站点阅读。