Claude Fable 与 KayfabeClaude Fable and Kayfabe
美国政府曾于6月12日对Anthropic的最新模型Claude Fable 5和Claude Mythos 5实施出口管制。由于缺乏实时验证国籍的可靠技术手段,Anthropic被迫暂停了所有用户对这两个模型的访问权限。这一突发状况对开发者和相关业务造成了直接影响。截至6月30日,相关出口管制已被正式解除,模型访问权限全面恢复。
6 月 12 日(星期五),美国政府对我们的最新模型 Claude Fable 5 和 Claude Mythos 5 实施了出口管制。这要求我们限制非美国公民的访问权限,无论他们身处美国境内还是境外。由于该命令立即生效,且我们当时没有可靠的方法来实时验证国籍,我们暂停了所有用户对这两个模型的访问权限。
截至今天(6 月 30 日),针对 Fable 5 和 Mythos 5 的出口管制已被解除。
从明天(即 7 月 1 日星期三)开始,全球用户将可以在 Claude Platform、Claude.ai、Claude Code 和 Claude Cowork 上使用 Fable 5。对于 Pro、Max、Team 以及部分 Enterprise 套餐,1 在 7 月 7 日之前,Fable 5 将占用最高达 50% 的每周使用额度,之后需通过使用点数(usage credits)获取。我们将尽快重新开放在 AWS、Google Cloud 和 Microsoft Foundry 上的访问权限。
继美国政府于 6 月 26 日批准后,我们也已经恢复了一批美国机构对 Mythos 5 的访问权限。我们正继续与政府协调,以将访问权限扩展给 Glasswing 计划中更多的国内外合作伙伴。
在这篇文章的剩余部分,我们将提供以下四个方面的更多细节和更新:
时间表和安全防护更新
我们在 6 月 9 日(星期二)发布了 Fable 5 和 Mythos 5。它们共享相同的基础模型,但 Fable 5 在发布时配备了强大的安全防护措施,以使其在一般用途中更加安全。而防护措施较少的 Mythos 5 仅向少数受信任的 Project Glasswing 合作伙伴发布,用于防御性网络安全工作。
6 月 12 日出台的出口管制指令,是在美国政府了解到一份报告之后发布的。在该报告中,Amazon 的研究人员发现了一种绕过 Fable 5 安全防护的方法:通过特定的提示词(prompting),让模型识别出多个软件漏洞。在其中一个案例中,该模型生成了演示如何利用相关漏洞的代码。在过去两周里,我们与政府以及其他合作伙伴(包括 Amazon)密切合作,审查了该报告及相关证据。
我们的测试证实,许多能力较弱的模型——包括 Claude Opus 4.8、GPT-5.5 和 Kimi K2.7——都能识别出与 Fable 5 在报告中相同的漏洞。在演示如何利用单一漏洞方面,我们测试的每一个模型都能产出与 Fable 5 相同的演示(包括 Claude Haiku 4.5、Sonnet 4.6、Opus 4.6、Opus 4.7、Opus 4.8、GPT-5.4、GPT-5.5 和 Kimi K2.7)。
重要的是,报告中所述的技术并未暴露任何独特的 Mythos 级别网络能力。这种行为反映了 Fable 5 安全防护机制的一种边界情况——正如我们将在下文解释的那样,有些任务不太可能具有危险性,但出于谨慎考虑,仍然被安全防护机制所拦截。报告所述的技术允许访问其中一种行为,但它只涉及常规的防御性网络安全工作。
尽管如此,我们仍迅速采取行动以应对所报告的绕过问题。我们与政府密切合作,训练了一个改进版安全分类器,专门针对并拦截报告中描述的行为。如果对 Fable 5 的请求被拦截,用户将收到通知,该请求将被转而发送给 Opus 4.8。
新的分类器意味着亚马逊报告中描述的具体技术在超过 99% 的情况下都会被拦截。在极少数情况下,模型可能会提供信息,但其详细程度不足以帮助网络攻击者。正如我们将在下文所述,模型的防护机制并非旨在拦截所有低风险的常规网络防御能力——仅拦截那些可能具有危害性的能力。美国商务部人工智能标准与创新中心(CAISI)的研究人员测试了我们先前和最新的防护机制,并一致认为它们异常强大。
新的分类器也带来一个代价,即在常规编码和调试任务中会更频繁地标记无害请求。与我们的所有防护机制一样,我们将继续对其进行优化,以更好地区分真正的滥用与合法请求,并减少误报。
我们的网络安全防护方法
Claude Mythos 5 在发现和利用软件漏洞方面比任何其他模型都更为有效——甚至超过了除最顶尖人类安全专家之外的所有人员。这些惊人的网络安全能力使其对企图在网络攻击中加以滥用的恶意行为者具有独特的吸引力。
然而,Claude Fable 5 并不具备这种独特的攻击能力。这是因为我们在发布该模型时,应用了我们有史以来最为强大的防护机制。在发布前的一个月里,我们从 Anthropic 内部的各个团队抽调人员,使致力于解决这一问题的研究人员和工程师数量翻了一番。
Fable 5 发布时配备了多种安全机制,其中任何单一机制都无法提供完美的防御,但组合起来却使该模型极难被滥用(这种方法被称为"纵深防御")。一些防御措施通过训练模型来拒绝危险请求;另一些则涉及对滥用模式进行事后分析。
一个特别重要的安全机制涉及分类器——这是一种较小的自动化 AI 系统,能够在交互过程中检测模型何时被要求执行可能有害的网络安全任务(或产生可能有害的输出)。当这种情况发生时,分类器会阻止模型对请求做出响应。这些分类器的最终目标是防止模型参与具有独特危险性的行为。
就像所有的安全机制一样,分类器也会犯错。它们有时会漏掉潜在的危险内容,有时也会被故意“越狱”:用户可以通过不寻常的方式向模型发出提示词,欺骗分类器,从而让模型生成系统本应拦截的有害输出。
因此,我们特意将安全分类器设定为对一组我们认为可能无害的请求触发拦截。这种“安全边际”方法意味着,请求必须看起来非常明确地安全,才能避免触发分类器(见下图中的 A 行)。用户对这种安全边际的直观体验是,模型会拒绝响应一些合理的、无害的请求。
对于 Fable 5,我们将这一安全边际设定得比以往任何一次发布都要大得多(B 行),这意味着会有更多无害的请求被拦截。我们明白这类误报会让用户感到沮丧,但为了让模型的其他功能得以广泛使用,我们做出了这种权衡。
安全边际也有助于缓解越狱问题。许多越狱的影响范围很窄:它们只会解除对某种非常特定的模型行为的限制,仅此而已。在某些情况下,假设用户以轻微的方式对模型进行越狱,并侵入了安全边际(或者有时侵入了具有模糊危害性的行为),但并未触及我们旨在拦截的核心有害行为(见下图中的 C 行)。我们认为,目前报道的 Fable 5 越狱事件都属于这种轻微类别。
更严重的越狱会解除对更多有害行为的限制。范围有限的有害越狱(D 行)可以诱发出某些特定的有害行为。这类越狱的严重程度通常为中低度,因为其局限性限制了攻击者。最令人担忧的类别是通用越狱(E 行),它会解除对大范围有害行为的限制。
正如我们在发布 Fable 5 时所指出的,可能无法使任何 AI 模型做到完全抵御(即免受)越狱攻击。3 我们预计会发现我们模型存在一些越狱漏洞,且严重程度各不相同:会有许多轻微的越狱,一些范围有限的有害越狱,并且在撰写本文时虽然尚未发现针对 Fable 5 的通用越狱,但专业的安全研究人员仍在对其进行红队测试。我们力求确保我们及我们的安全合作伙伴能够率先发现重大的越狱漏洞,并在恶意行为者利用它们造成危害之前予以修复。
上述谨慎策略意味着,绝大多数越狱都无法成功解锁危险行为。我们的分类器使得成功的越狱成本极高且需要耗费大量精力,即使越狱成功,我们额外的防御层也会提供进一步的缓解措施。随着我们对新型越狱技术的深入了解,我们将继续更新分类器。
关于越狱的行业共识框架
目前,AI 行业对于如何客观地描述 AI 越狱的严重程度尚未达成共识。这使得每当发现新的越狱技术时,都会增加极大的不确定性:开发者没有一致认可的标准来决定最迫切需要关注哪些发现,政府也没有统一的标准来决定何时采取行动。4
在未来几个月里,随着更多具备强大网络安全(及其他)能力的模型被训练、评估和发布,这一问题将变得更加严峻。建立评估 AI 越狱的通用标准,将有助于我们及其他公司安全地发布新模型,同时也能让用户充分利用模型的先进能力。
因此,我们正在与 Amazon、Microsoft、Google 及其他 Glasswing 合作伙伴合作,共同起草一套共识框架,用于评估 AI 越狱的严重程度以及 AI 开发者应如何应对。我们诚邀其他行业合作伙伴和模型提供商加入这一努力。
我们目前的方案是根据以下四个不同维度对特定越狱行为进行评分。前两个维度描述越狱为攻击者带来了什么;后两个维度描述越狱多快会演变为现实世界中的威胁:
我们建议使用这一严重程度框架来校准对新发现越狱的响应措施。对于最严重的越狱类别(例如,除了其他特征外,正被用于对关键电网或银行系统造成毁灭性影响的越狱),我们将在确认严重程度后立即部署初步缓解措施。我们还在组建团队,对关键越狱提交渠道实施全天候监控。
任何越狱评分方法都不会是完美的。尽管如此,能够通过一个通用框架来传达特定发现的近似严重程度仍然具有重要价值。这是一项正在进行的工作;随着我们收到更多合作伙伴的反馈,我们预计该框架将随时间不断完善。
我们预计很快将分享有关拟议框架的更多细节。与此同时,我们还在推出一项新的 HackerOne 计划,安全研究人员可以在其中提交他们在 Fable 5(一旦可用)中发现的潜在网络越狱,供我们审查。
与美国政府合作推进前沿 AI 安全
过去十周里,Anthropic 一直与美国政府密切合作,协助其制定 6 月 2 日发布的《促进先进人工智能创新与安全行政命令》中所体现的方针。我们的沟通范围涵盖了国家网络主任办公室、科技政策办公室、财政部、商务部(包括 CAISI)以及相关国家安全机构。
我们致力于基于近两年与美国政府合作伙伴在部署前测试与评估方面的现有合作,继续推进这项工作。以下承诺既反映了这些既有工作,也包含了我们在上述框架最终定案之际,为扩大政府合作规模而提出的新方案:
我们希望,此次合作以及我们提出的行业共识框架,能够成为制定全行业系统性规则的基础,甚至能为全球在 AI 风险与收益的有效协调方面提供一个初步模板。
这些规则应被编纂为强有力的监管法规,并平等地适用于所有前沿模型开发者。政府对 AI 发布的参与需要一套持久且透明的流程,从而为网络防御者及其他人员提供所需的确定性,确保他们能够使用强大的模型。
我们期待以上述方式深化与政府的合作。我们也非常感谢用户在此次服务中断期间的耐心包容,并感谢与我们并肩作战的研究人员和行业合作伙伴,正是由于他们的努力,Fable 5 和 Mythos 5 才得以重新提供服务。
相关内容
推出 Claude Sonnet 5
Sonnet 5 在编程、智能体以及大规模专业工作方面均展现出前沿的性能表现。
阅读更多
面向科学家的 AI 工作台 Claude Science 现已上线
Claude Science 是一款可定制的应用程序,它集成了研究人员最常用的工具和包,能够生成可审计的产出物,并提供灵活的计算资源访问方式。
了解更多
推出 Claude Tag
Claude Tag 为团队提供了一种与 Claude 协作的新方式。
了解更多
需要完整排版与评论请前往来源站点阅读。