Claude Fable 5 发布 3 天后被封禁——只因一个修复代码的请求

Claude Fable 5 发布 3 天后被封禁——只因一个修复代码的请求

美国政府以国家安全为由,在发布 3 天后暂停了 Claude Fable 5 和 Mythos 5。所谓的“越狱”,不过是让模型读取一段代码库并修复 bug——这件事 GPT-5.5 不用任何变通手段就能做到。本文讲清楚发生了什么,以及它为何重要。

作者 Silverthread Labs··Claude Fable 5 被暂停·Fable 5 政府指令·AI 出口管制

Claude Fable 5 发布 3 天后被封禁——只因一个修复代码的请求

全世界最强大的 AI 只活了三天#

6 月 9 日,Anthropic 发布了 Claude Fable 5 和 Mythos 5——这是它有史以来交付的最强模型,其中前沿版本只保留给经过审核的政府合作伙伴。我们当时写道:把两者区分开来的,唯有您是谁

三天之后,这种区别不再有任何意义。6 月 12 日,美国政府援引国家安全权限,发布了一项出口管制指令,要求 Anthropic 暂停向任何外国国民——无论身处境内还是境外,包括 Anthropic 自己的外籍员工——开放 Fable 5 和 Mythos 5 的一切访问权限。其实际效果是彻底的:为了遵守指令,Anthropic 不得不对每一位客户停用这两款模型。上周的问题还是您会拿到哪个版本,这周的答案是:哪个都没有。

Anthropic 旗下其余所有模型的访问均不受影响。只有那两款能力最强的,没了,且未宣布任何恢复日期。


政府究竟反对的是什么#

接下来就开始变得离奇了。根据 Anthropic 的声明,这项指令于美东时间下午 5:21 送达,其中并未包含国家安全顾虑的具体细节。该公司事后拼凑出来的理解是:政府认为有人找到了一种“越狱” Fable 5 的方法——绕过那些通常会把敏感的网络与生物类查询重新路由给能力较弱的 Opus 4.8 模型的安全分类器。

那么这个越狱究竟是什么?据 Anthropic 称,对方提供的唯一证据是口头描述,而它所描述的技术“本质上就是让模型读取某一特定代码库,并修复其中的任何软件缺陷”。

请再读一遍。触发了一款数亿人在用的模型被以国家安全为由召回的那项能力,竟是让一个 AI 去查找并修复代码中的 bug。这根本算不上什么奇技淫巧。它恰恰是开发者使用编程模型时最常见的那件事,每天每小时都在发生。

Anthropic 审查了该技术的一次演示,发现它只浮现出了“少数几个先前已知的、轻微的漏洞”——这些缺陷本就已经公开,而该公司表示,包括 OpenAI 的 GPT-5.5 在内的其他可免费获取的模型,根本无需任何越狱就能发现它们。换句话说:政府视为 Fable 5 独有威胁的那件事,其实是整个行业的一项基线能力,也是那些守护真实系统的防御者每天都在依赖的工具。


Anthropic 的安全防护从来都不是薄弱环节#

正是这部分,让这次召回在道理上难以站住脚。从各方说法来看,Fable 5 的安全防护是业内最强的,而非最弱的。引用 Anthropic 声明中的内容:

  • 发布之前,这些安全防护接受了美国政府自身、UK AISI、多家第三方机构以及内部团队合计数千小时的红队测试。
  • 这些测试表明,其安全防护“比此前任何已部署模型的都要有效得多”。
  • 没有任何测试者找到过通用越狱方法——一种能够大范围解锁模型受限能力的手段。
  • 这些防护被调得极为保守,以至于用户一直在抱怨它们管得太宽,连无害的请求也会被拦下。

Anthropic 从第一天起也很坦诚:完美的越狱抵抗力对任何人来说都不可能做到。业内每一套安全防护都易受狭窄的、非通用的越狱影响,即在特定情形下套出某些信息。这并非 Fable 独有的缺陷;而是当前每一家前沿模型提供商的技术现状。该公司公开阐明的策略是纵深防御:让越狱要么足够狭窄、要么造价高昂,并辅以高强度的监控,以便快速检测并关停真正的攻击。那项强制性的 30 天数据保留政策——我们在模型发布时就把它点名为一个合规上的麻烦——存在的意义恰恰在于:让 Anthropic 能够在越狱出现时对其加以研究和缓解。

至关重要的是,Anthropic 表示,它没有收到过哪怕一例关于非通用越狱产生了真正有害结果的披露。迄今为止浮现出的一切,要么是无害的输出,要么是没有任何“Mythos 专属增益”的轻微发现——模型交出的东西,没有哪样是您在别处弄不到的。


为什么即便您从未碰过 Fable 5,这件事也该让您担忧#

人们很容易把这归档为一桩关于某一家公司和两款模型的故事。它不是。先例本身才是故事所在。

如果召回一款已商业部署的前沿模型的标准是“有人演示了一种能浮现出已公开 bug 的狭窄技术”,那么这套标准一旦一视同仁地施行,就足以让市面上每一款主流模型下架——包括此刻仍在运行的那些。Anthropic 恰恰指出了这一点:这样一条规则“实质上会让所有前沿模型提供商的一切新模型部署全部停摆”。

Anthropic 并不是在挑战政府阻止不安全部署的权力。它明确支持这一点——前提是它属于一套“透明、公正、清晰且以技术事实为依据”的法定程序的一部分。它反对的是:一项口头的、毫无细节的、基于一次修复 bug 演示的指令,这几条标准一条都不沾边。当对一个国家最强大的模型的关停开关可以在没有书面技术依据的情况下被拉下时,问题就不再关乎 Anthropic,而开始关乎由谁来决定什么能运行、又基于什么证据。

对于任何在前沿 API 上做开发的人来说,这里头还埋着一条具体的教训:**模型可用性如今已是一个地缘政治变量。**您产品所依赖的某款模型,可能在一个下午之内凭空消失,原因您永远无从得知,并且会因用户的国籍而区别对待。如果您的路线图假定某款特定前沿模型会一直存在下去,那么这一周就是个提醒:请为它不复存在的那一天预先设计——这恰恰是运行您真正掌控的模型背后的盘算。


接下来会如何#

Anthropic 表示,它一边遵守这项指令,一边对其表示不认同,称整件事是一场“误解”,并正在努力尽快恢复访问。它承诺会在 24 小时内提供更多技术细节。政府究竟是收回成命、将其正式化,还是进一步升级,将让我们看清在镜头之下 AI 监管实际是如何运作的——不是在听证厅里,而是在一封美东时间下午 5:21、不含任何具体内容的信函里。

就目前而言,全世界最强大的模型上线了 72 小时,而它们消失的官方理由是:有人让其中一款去修了点代码。


这对您的 AI 技术栈意味着什么#

如果一纸指令就能让一款前沿模型在一夜之间——对所有人、毫无预警地——停用,那么“这周哪款模型最好”就是个不该用来构建业务的错误问题。正确的问题是:当我们的模型消失、被限流,或按国籍被设限时,我们的产品会怎样?

这种韧性是一项工程工作,也正是我们 Silverthread Labs 所做的事。我们构建定制 AI 解决方案智能体式 AI 系统,使其具备模型可移植性,而不是被锁死在某一家提供商的可用性上——我们还会帮助团队权衡那些输不起的工作负载是否该采用自托管方案。如果您的技术栈里有一个以别人家模型命名的单点故障,请在下一道指令落地之前与我们聊聊

完整声明请见 Anthropic 官网

最近更新: June 12, 2026

[ 工作流程 ]

免费自动化审计

我们帮您找出占用最多成本的那 20% 手工作业,并清晰指出如何将其消除。

STEP 1.0
告诉我们痛点

告诉我们痛点

一次 30 分钟通话。请带我们走一遍您的日常运营,我们会发现您早已习以为常的瓶颈。

STEP 2.0
为机会排序

为机会排序

我们按影响与投入对每个机会评分,让您一眼看清哪些环节能让 AI 省下最多时间与金钱。

STEP 3.0
拿到可执行的方案

拿到可执行的方案

一份按优先级排好的路线图,可立即落地。与我们共同执行或自行实施皆可,成果永远归您所有。