返回 2026-06-16
🤖 AI / ML

Anthropic 的“安全超级权力”‘Anthropic’s Safety Superpower’

daringfireball.net·2026-06-15

Ben Thompson 在 Stratechery 撰文剖析了 Anthropic 引以为傲的“安全”策略,指出其本质上是一种排他性的商业竞争武器。文章认为,Anthropic 试图以“安全”为由建立护城河,不仅拒绝协助竞争对手,甚至暗示除自己外其他公司都不应涉足前沿大模型的研发。这种政策在 Anthropic 与美国战争部因 Claude 模型使用权发生纠纷仅两个月后便推出,显得尤为虚伪。作者一针见血地揭露了“AI安全”话语如何被企业异化为巩固自身垄断地位的工具。

收听本文:

我很理解那些一直将 Anthropic 的公开声明(尤其是围绕其模型发布的声明)视为营销噱头和散布恐慌的愤世嫉俗者。就在两个月前,Anthropic 宣布了 Mythos Preview,他们称该模型由于具备高级网络安全能力,过于危险而无法公开。然而两个月后,该公司却公开发布了 Fable,这是带有各种安全护栏的 Mythos 版本。

根据我有限的经验,Fable 是一个非常令人印象深刻的模型。除了编程性能之外,客观评估模型的其他能力正变得越来越困难,但主观感受是存在的,我发现我与 Fable 的交互体验极其出色;它让其他模型(包括 GPT 5.5 和 Opus 4.8)显得微不足道且愚蠢。我之前有过两次类似的感受,分别是在使用 GPT-4 和 Grok 4 时,它们在基础模型的规模和复杂性上都代表了新一代;我的直觉是,Fable 是一次全新预训练的下游产物,也是新一代模型的开山之作。

因此,我完全相信 Fable/Mythos 在识别和利用安全问题方面确实更具能力,Anthropic 谨慎的推出策略也是合理的。然而,公开发布模型的问题在于,护栏可能会被越狱(jailbroken),而且显然,发布后不久就发生了这种情况。

Anthropic 对阵美国政府:再次交锋

接下来发生的事情还不太明朗。Anthropic 在一篇博客文章中写道:

美国政府援引国家安全职权,发布了一项出口管制指令,暂停任何外国公民(无论其身处美国境内还是境外,包括身为外国公民的 Anthropic 员工)访问 Fable 5 和 Mythos 5。该指令的最终结果是,为了确保合规,我们必须立即为所有客户停用 Fable 5 和 Mythos 5。对所有其他 Anthropic 模型的访问将不受影响。 我们于今天(美国东部时间)下午 5:21 收到了政府的指令。该信函并未提供其国家安全关切的具体细节。我们的理解是,政府认为其已掌握了一种绕过或“越狱”Fable 5 的方法。我们审查了使用该特定技术识别少量先前已知的轻微漏洞的演示。这些漏洞看起来都相对简单,而且我们发现,其他公开可用的模型无需绕过技术也能发现它们。

Anthropic 随后辩称,非通用的越狱是不可避免的,且影响范围有限,而且没有证据表明存在通用的越狱方法;与此同时,被发现的越狱方法似乎是由 Amazon 报告的,这一点引人注目,因为 Amazon 既是 Anthropic 的投资者,也是该公司的主要推理服务提供商。截至我撰写本文时,Anthropic 的高管正在华盛顿特区寻求解决他们坚称的误会,而白宫官员则暗示这是该公司领导层对正当国家安全关切的漠视。

鉴于目前有太多事实尚存争议,对于当前的冲突,我其实没有太多要补充的;但我对冲突的发生并不感到意外:我早就在《Anthropic 与对齐》一文中解释过,为什么美国政府与 Anthropic 之间的冲突是不可避免的。因此,那些争辩说 Mythos 还不够强大、不足以让政府采取激烈行动的人其实没有抓住重点:如果现在不够强大,下一个模型就会足够强大,再下一个也会,特别是考虑到现在的模型在开发其后继者方面正变得越来越有用。

然而,这引出了另一个问题——一个似乎证实了怀疑论者观点的问题:如果 Mythos 如此危险,当初为什么还要发布 Fable,又为什么要与正在做你声称想做之事的政府发生冲突?事实上,我认为 Anthropic 的行为是完全可以理解的;这家公司的独特之处在于它如何为这些行为辩护,而正是这些辩护,既为怀疑论者提供了口实,也赋予了 Anthropic 独特的魔力。

经济上的必然要求

在 AI 发展的最初几年里,最多的经济价值流向了算力,原因显而易见:我们的供给无法满足需求,这意味着价格会飙升;最大的受益者是 Nvidia、TSMC 以及内存制造商(SK hynix、Samsung 和 Micron)。与此同时,Anthropic 和 OpenAI 在构建前沿模型方面总计亏损了数百亿美元,而这些模型一旦发布,就会被主要来自中国的开源模型进行蒸馏和商品化。

这代表了这些实验室的利空情形——因为它们的差异化转瞬即逝,而免费的替代品变得“足够好”,它们永远无法收回成本——我认为这是一种合理的情形。在一个模型可以互换的世界里,模型就是大宗商品,而大部分价值会流向其他地方。目前这个地方是算力,但从长远来看,当我们拥有足够的算力时,价值链中最有价值的环节将是那个一直最有价值的地方:掌握用户触点。

为此,我一直很清楚,前沿实验室有着向用户靠拢的经济必然性。如果你掌握了用户触点,你就拥有了实质性的锁定效应,而掌握用户触点的最佳方式就是成为满足用户所有需求的“画布”。这进一步意味着,前沿实验室注定会与软件公司发生冲突:目前掌握用户触点的是软件,而彻底取代软件而不是仅仅作为软件的大宗商品输入,才符合前沿实验室的长远利益。

与此同时,软件公司却在反其道而行之。Satya Nadella 在 X 上的一篇文章中阐述了他对企业应如何基于模型进行构建的愿景:

这意味着真正的机会不在于挑选最好的模型,而在于在模型之上构建一个学习闭环,让人力资本和 Token 资本在其中实现复利式增长。你可以外包一项任务,甚至一份工作,但永远不能外包你的学习。企业的未来在于将这种学习在人与 AI 之间不断积累并产生复利的能力。这需要一种全新的架构方法,使每家企业都能构建随时间不断改进的智能体系统,同时仍保留对其 IP 的控制权。一家公司应该能够随时替换“通才”模型,而不会丢失其学习系统中内置的“公司老手”的专业知识。这是在未来时代检验你的控制权和主权的“关键测试”。

Nadella 在提出这一愿景时发出了警告:

回想一下全球化第一阶段发生的情况,整个工业经济都被外包掏空了。表面的 GDP 数据看起来很好,但产业转移是切实发生的,其后果至今仍在显现。让我们不要把这种态势带入 AI 时代,让少数 AI 系统攫取所有的经济回报,而整个行业却眼睁睁看着自己的知识被彻底商品化。

这个类比的问题在于:全球化确实发生了,工业经济也确实被掏空了。这有可能不是一个警告,而是一个预言;难怪 Nadella 会敲响警钟,因为 Microsoft 很可能成为受害者之一。同样地,模型制造商的经济驱动力也恰恰是实现这一目标。

数据的必然要求

这些模型——甚至连 Mythos 也不例外——目前还没有达到这一步。除了更多的算力,它们还需要更多、更优质的数据。模型的改进越来越依赖于强化学习;其中一部分可以合成生成,但对于前沿实验室来说,最强大的杠杆是真实世界的应用。

我认为,这正是 OpenAI 和 Anthropic 提供高额补贴订阅计划的主要原因。SemiAnalysis 最近估计,一个 200 美元的计划可以为你提供价值 8000 美元的 Claude token 和价值 14000 美元的 Codex token。当然,两家公司都在争夺用户和开发者的心智份额,但他们同时也是在争夺对实际使用数据的访问权,以使他们的模型变得更好。

Anthropic 借 Fable 大幅提高了筹码,宣布他们将保留所有使用情况的数据 30 天,即使是针对之前承诺零数据保留的企业版套餐也是如此。该公司表示他们不会使用这些数据进行训练,但他们没有采取任何保障措施来确保未来也不会这么做(例如将数据交由第三方保管)。如果这一政策变化(无论 Fable 何时恢复服务)没有导致大量客户流失,我怀疑他们开始使用这些数据只是时间问题:这对他们的终极目标来说实在太有价值了。

还要注意的是,向用户触点渗透所带来的良性循环:直接使用 Claude 或 Codex 完成的工作流越多,各家公司获得的反馈用于训练的数据就越多,这使得他们的产品变得更强大、更实用,从而进一步扩大了他们能够服务的工作流范围,并增加了他们获取数据的途径。

Nadella 在他的文章中强调了这些数据的重要性,但理所当然地认为它应该独立于模型:

企业需要将其工作流、领域知识和积累的判断力转化为随着每次使用而不断优化的 AI 系统。私有评估应当能够反映模型是否在针对对企业至关重要的业务成果上真正取得了改进(而不仅仅是外部基准测试!)。私有强化学习环境应允许模型基于组织内部的真实轨迹变得愈发强大。其知识库使机构记忆变得可查询,并提高了 token 的使用效率。这个闭环成为了企业的新 IP。我将其视为一台爬山机。而且与大多数资产不同,它具有复利效应。每一个得到改进的工作流都会产生更好的训练信号,从而加速企业独有隐性知识的积累。无论未来出现何种新的单一模型能力,尽早构建这一闭环的企业都将拥有难以复制的优势。

然而,如果屈从于 Anthropic 数据政策的企业现在能获得更好的结果呢?或者,如果现有企业抵制该政策,从而为新企业——或者模型制造商本身——敞开大门,让它们在市场上击败这些现有企业呢?Anthropic 无疑正在考验 Nadella 所呼吁的那种决心。

权力法则

令人惊讶的是,围绕 Fable/Mythos 的数据保留政策甚至都不是此次发布中最具争议的部分。相反,Anthropic 在发布时表示,如果 Fable 被用于 LLM 开发,它会静默降低 Fable 的性能;摘自其 System Card:

与我们在网络安全、生物和化学以及蒸馏尝试方面的干预不同,这些安全防护措施对用户将是不可见的。Fable 5 不会回退到其他模型。相反,这些防护措施将通过提示词修改、导向向量或参数高效微调(PEFT)等方法来限制其有效性。这些干预措施不会影响绝大多数的编码工作。我们估计它们将影响约 0.03% 的流量,集中在不到 0.1% 的组织中。当这些干预措施被激活时,我们预计它们除了限制模型在开发前沿 LLM 方面的有效性外,对模型的行为影响微乎其微。Claude 仍会对用户的请求提供有益的回复。在此模型发布后,我们将继续提高检测方法的精确度。

Anthropic 撤回了这一改变——Fable 只会将 LLM 相关的请求转交给 Opus 4.8,并向用户披露这种转交——但我认为最初的政策非常具有启发性。一方面,我其实并不苛责 Anthropic 不想帮助其竞争对手;另一方面,应该极其清楚的是,Anthropic 认为除了他们自己,根本不应该有其他人在制造前沿 LLM。

让这项政策更加引人注目的是,它是在 Anthropic 与战争部发生争执仅两个月后颁布的:后者希望将 Claude 用于任何合法用途,而前者则希望对监控和自主武器实施更严格的控制。这种性能削弱所代表的,是 Anthropic 为了实现其政策偏好而默默篡改其模型的能力和意愿。换句话说,Anthropic 蓄意印证了其批评者在供应链风险方面最糟糕的担忧。

然而,从之前那次事件中得出的更广泛的结论是,Anthropic 认为他们才应该对 Anthropic 的使用方式拥有最终决定权;鉴于他们认为只有他们才应该开发尖端 AI,推而广之,他们认为只有他们才应该对 AI 拥有最终决定权。当你进一步将这一认知与该公司关于 AI 有能力开展所有经济活动的声明结合起来时,你就会意识到,Anthropic 的高层实际上想要对所有人、所有事拥有权力。

安全的故事

当然,Anthropic 绝不会把话说得这么直白;相反,他们讲的是一个关于安全的故事:

  • 我预计 Anthropic 会越来越倾向于通过针对不同工作流定制的端点,向最终用户开放其模型能力,即使他们同时会开始限制 API。这种对软件的替代和对访问权限的限制将以安全的名义进行,即使 Anthropic 在此过程中实现了其更贴近最终用户的经济诉求。
  • Anthropic 对其数据保留政策的重大改变给出的解释是安全。具体而言,该公司声称保留所有用户数据 30 天,对于防止美国政府所担忧的“越狱”行为是必要的。我完全可以想象,在未来,安全诉求会促使他们也使用这些数据进行训练,以更好地防范恶意使用。
  • Anthropic 的整个创立初衷,植根于创始人的一种信念,即 OpenAI 对安全的重视程度不够;该公司相信只有他们才能控制 AI,并且因为他们独一无二地关心安全问题,因此他们试图控制其他所有人——甚至包括美国政府——也是正当的。
  • 关于这些安全借口,问题在于:我认为它们之所以奏效,是因为对 Anthropic 来说,它们根本不是借口。该公司真的相信,他们是唯一相信超级智能的人,因此也是唯一对潜在危险足够担忧的人。这为一个接一个的决策、政策和冲突提供了辩解,而在外界看来,这些举动就像是愤世嫉俗与天真幼稚的奇异结合。

    与 OpenAI 的反差是巨大的:我认为,理解 OpenAI 如何以及为何失去领先优势的一个切入点是,在 ChatGPT 发布后的几年里,该公司内部一直处于内耗之中,因为一个曾经的研究实验室突然背负上了意外成为消费科技公司的重担;而 OpenAI 解决这一冲突的方式,很大程度上是特别向 Anthropic 流失了大量人才。

    另一方面,Anthropic 在人才、使命和业务之间实现了完美的契合。该公司能够向研究人员推销“创造机器神”的愿景,并赋予他们这样一种光环:他们是那种关心潜在危险,且足够聪明、能代表人类驾驭这些危险的人;而由此引发的每一次政策变动,都恰好对业务大有裨益,这简直是世界上最美丽的巧合。

    我尊重这种契合,但也畏惧它。我尊重它,是因为它显然非常有效;最接近的类比可能是 Apple,Apple 总是将每一个利己行为都包装成“为用户做正确的事”——而且很多时候他们确实做到了。Anthropic 也是如此。然而,我所畏惧的是,让一群坚信自己最懂行的人去制造一部我可有可无的智能手机是一回事;而让他们去开发有可能匹敌甚至超越主权国家,或者仅仅是大型企业力量的超级智能,情况就令人担忧得多了。那些坚信自己了解人类需求的聪明人的历史往往充满劣迹,正是因为他们说服了自己其出发点是好的,从而为那些绝非正当的行为辩护。

    需要完整排版与评论请前往来源站点阅读。