🤖 AI / ML

Initial impressions of Claude Fable 5Initial impressions of Claude Fable 5

simonwillison.net·2026-06-09

Initial impressions of Claude Fable 5

Simon Willison

2026年6月9日

我没有提前获取今天发布的 Claude Fable 5 的内测权限，但在过去的 5.5 个小时里，我一直在对它进行全方位测试。我的初步印象是，这玩意儿简直就是个性能巨兽。它虽然运行缓慢且价格昂贵，但迄今为止，它处理我抛给它的所有任务都显得游刃有余。正如目前前沿模型的常态一样，真正的挑战在于寻找它做不了的任务。

首先，我们来回顾一下它的主要特性。

Anthropic 声称，Claude Fable 5 提供了与 Claude Mythos 5 相同的性能，但设置了更为严格的安全护栏，以防止其被用于有害目的。这些护栏被触发的频率相当高，以至于 Claude API 专门引入了新机制，用于在您触碰护栏时进行提示，甚至提供了一个新选项，可以在请求被拒绝时自动回退到其他模型。

Claude Mythos 5 也在今天发布，Anthropic 表示它“具备与 Claude Fable 5 相同的能力，但未配备安全分类器”。

这些模型拥有 100 万 token 的上下文窗口，最大输出 token 数为 12.8 万，知识截止日期为 2026 年 1 月。

它们的定价是 Claude Opus 4.5/4.6/4.7/4.8 的两倍：输入为 10 美元/百万 token，输出为 50 美元/百万 token。使用更长的上下文不会产生额外费用。

除此之外，其升级指南比 Opus 4.8 的同类指南要单薄得多。

大模型的味道

描述 Fable 最贴切的方式就是它给人一种“大”的感觉。这不仅体现在速度和成本上，更体现在它的知识储备量上。

这是一个示例提示词，我用它来比较 Fable 和 Opus 4.8 的知识储备（保留了原有的拼写错误）：

列出 Simon Willion 的所有开源项目，按最新排序，并附上首次发布的粗略日期

Opus 4.8 的回答是这样开始的：

我没有关于 Simon Willison 所有开源项目的可靠、全面且经过日期验证的清单，我想对此保持诚实，而不是冒险为您提供不准确的日期或编造的条目。以下是我有相当把握告诉您的内容：Simon Willison 的知名项目：LLM（约 2023 年）——一个用于与大型语言模型交互的命令行工具和 Python 库。Datasette（约 2017 年）——一个用于探索和发布数据的工具，可能是他近期最著名的项目。sqlite-utils（约 2018-2019 年）——一个用于操作 SQLite 数据库的 Python 库和 CLI 工具，通常与 Datasette 配合使用。Django（2005 年）——他是 Django Web 框架的共同创造者之一，另一位是 Adrian Holovaty，该框架最初是在《Lawrence Journal-World》报纸开发出来的。他还维护着一个庞大的 Datasette 插件生态系统以及许多小型实用工具（通常命名为 shot-scraper，以及各种用于导入数据的 *-to-sqlite 工具等）。

这回答得还不错。以下是 Fable 5 对完全相同提示词的回答的开头部分——这两个模型都是在无法访问搜索的情况下运行的：

我想你指的是 Simon Willison —— 这位多产的开源开发者、Django 的联合创始人以及 Datasette 的创建者。首先要提醒一下：列出一个真正完整的清单是不可能的。Simon Willison 的多产是出了名的——他发布了数百个代码库（仅 Datasette 就有 100 多个插件，其中许多是他编写的），而且我的知识有截止日期，所以我会漏掉他最近的工作。以下是他的一些知名项目及大致的首次发布日期，按时间倒序排列：知名项目（大致日期）：files-to-prompt（2024 年 4 月）——将文件拼接成单个提示词供 LLMs 使用；datasette-extract（2024 年）——使用 LLMs 提取结构化数据的插件；LLM（2023 年 5-6 月）——用于与大型语言模型交互的 CLI 工具和 Python 库，以及庞大的插件生态系统（llm-gpt4all、llm-mistral、llm-claude 等，自 2023 年起）；symbex（2023 年 6 月）——在 Python 代码中搜索符号；ttok 和 strip-tags（2023 年 5 月）——用于 LLM 管道的 token 计数和 HTML 清理的 CLI 工具；datasette-lite（2022 年 5 月）——通过 WebAssembly/Pyodide 完全在浏览器中运行的 Datasette；shot-scraper（2022 年 3 月）——通过 Playwright 自动截取网站屏幕截图；s3-credentials（2021 年 11 月）——用于创建限定范围的 AWS S3 凭证的 CLI 工具；django-sql-dashboard（2021 年）——用于 Django 的 SQL 报告仪表板；Dogsheep 套件（2019 年）——个人分析工具：twitter-to-sqlite、github-to-sqlite、healthkit-to-sqlite、dogsheep-beta 等；sqlite-utils（2018 年）——用于操作 SQLite 数据库的 CLI 工具和 Python 库；Datasette（2017 年 11 月）——他的旗舰项目；用于探索和发布数据的工具；csvs-to-sqlite（2017 年）——将 CSV 文件转换为 SQLite；各种早期工具（约 2007-2010 年）——soupselect、json-head、geocoders 等；Django（2003-2005 年开发，2005 年 7 月开源）——与 Adrian Holovaty 在 Lawrence Journal-World 共同创建。

（顺便附上 GPT-5.5 的结果。它列出的项目甚至比 Fable 还多！）

过去我曾说过，我不在乎模型知道多少——我希望它们能以实用的方式处理文本和代码，并通过搜索工具主动查找所需的信息，而不是把这些信息硬编码到模型的权重里。

但这样的知识储备在很大程度上能反映模型的大小——你可以把多得多的关于世界的细节塞进更多的参数中。

知道得更多是否意味着模型能更好地完成我们交给它的任务？我完全可以想象，一个对现代库和模式有更深层了解的编程模型，能够更高效地处理编程任务。

Fable 真的比 Opus 大吗？Anthropic 没有透露任何关于模型大小的信息，所以我们只能靠蛛丝马迹来猜测，但它的速度、价格以及我对其知识储备的亲自测试让我认为，这是一个大模型。也许是迄今为止所有厂商中最大的。

在 Claude.ai 中使用 Fable

Anthropic 在其所有平台上都提供了 Fable 5——包括 Claude.ai 聊天界面、网页版 Claude Code、Claude Code CLI 以及 Claude Cowork。该模型在订阅计划中“截至 6 月 22 日”可用（我目前使用的是每月 100 美元的 Max 计划），之后将需要额外付费。

Claude.ai 经常被低估。自 2025 年 9 月以来，每次聊天都可以访问一个完整的容器环境来运行代码，包括安装额外软件包甚至直接从 GitHub 克隆代码库的能力。

上周我发布了 micropython-wasm，这是一个 Python 库，它使用 wasmtime 在 WebAssembly 中运行定制构建的 MicroPython，从而为不受信任的 Python 代码充当沙箱环境。

我决定看看 Fable 能否将其升级为运行完整的 Python。我一开始使用了这个提示词：

从 GitHub 克隆 simonw/micropython-wasm，并研究如何在这里使用完整的 Python 而不是 MicroPython

Fable 发现可以使用 Brett Cannon 的 cpython-wasi-build 构建版本来实现这一点，但由于环境限制，它自己无法下载这些文件。

于是我从那个页面下载了两个 zip 文件，并将它们上传到了 Claude：

这是 Brett Cannon 的构建文件（附件 python-3.zip 和 _build-python-3.zip）

就这样。它运行了几分钟，就把整个事情搞定了。

回复的一部分内容如下：

我尝试了更简洁的 single-zip-stdlib 方案来缩小文件系统暴露面，但 CPython 的 getpath 引导程序如果不做更多前缀调整，就无法在 zip 文件内部找到 encodings——目录预打开（directory-preopen）方案运行稳定，所以概念验证（PoC）使用了这种方法。zip 路径的问题是可以解决的，但需要对 _PYTHONHOME/frozen-getpath 进行处理。

于是我说：

在 single-zip-stdlib 问题上再多尝试一下

然后过了一会儿：

我想要一个包含整个系统的 wheel 包，里面要有 Python 封装、WASM 文件以及标准库，这样我就可以执行 uv run --with path-to-whl python -c "demo code"

……然后它给了我这个 13.9MB 大小的 cpython_wasm-0.1.0-py3-none-any.whl 文件。你可以像这样使用该 wheel 的 URL 和 uv 在沙箱中尝试运行 Python 代码：

uv run --with https://static.simonwillison.net/static/cors-allow/2026/cpython_wasm-0.1.0-py3-none-any.whl \
  cpython-wasm -c 'print(45 ** 56)'

这是完整的聊天记录。

这是一个非常出色的开局。

使用 Claude Code 为 Datasette Agent 和 LLM 添加功能

在我意识到今天是 Fable day 之前，我今天的挑战性目标是给 Datasette Agent 添加一项新功能：我希望该代理软件中的工具调用能够实现在执行中途暂停，并直接向用户请求批准的能力。

这似乎是一个交给新模型来处理的、相当有分量的任务。

在这一天的时间里，Fable 不仅解决了这个问题，还在我的底层 LLM 库中发现并实现了四个 issue，这将有助于在工具调用中支持这种高级的暂停-恢复机制。

起初它使用了一些略显别扭的 hack 手段让一切运行了起来，但当我告诉它对 LLM 本身的修改也在范围内时，它立刻着手清理这些 hack，并将其转化为 LLM 原生支持的功能。

我的挑战性目标最终演变成了 LLM 0.32a3 版本，并且几乎完全是由 Fable 编写的。以下是发布说明：

为了满足 Datasette Agent 的人机协同（human-in-the-loop）ask_user() 功能的需求，对工具调用（tool calls）的工作方式进行了以下改进：工具实现可以声明一个名为 llm_tool_call 的参数，以便接收当前调用的 llm.ToolCall 对象。这使得它们能够访问当前的 llm_tool_call.tool_call_id。参见 Accessing the tool call from inside a tool。#1480 现在，每个工具调用都保证拥有一个唯一的 tool_call_id——未提供该 ID 的提供者将获得一个合成的带有 tc_ 前缀的 ULID。#1481 工具可以抛出 llm.PauseChain 异常以干净地暂停工具链，这对于等待人工批准等操作非常有用。该异常在传播给调用者时会附带 .tool_call 和 .tool_results（已完成的同级结果），并且不会使用占位符结果进行模型调用。参见 Pausing a chain from inside a tool。#1482 并发工具执行的失败语义：异步同级工具调用在暂停或钩子异常传播之前，总是会运行至完成。#1482 现在，链可以从以未解决的工具调用结尾的 messages= 历史记录中恢复：这些调用会在第一次模型调用之前，通过常规的 before_call/after_call 机制执行，并跳过那些已有结果的调用。execute_tool_calls() 方法还接受一个新的可选参数 tool_calls_list=，用于执行显式提供的 ToolCall 对象列表，以代替响应所请求的调用。参见 Resuming a chain with pending tool calls。#1482 修复了一个异步工具执行器会静默丢弃对未包含在 tools= 中的工具的调用的 bug——这些调用现在会返回 Error: tool "..." does not exist 结果，从而与同步执行器保持一致。#1483

Fable 为此在 API 设计、测试、代码和文档方面展现出的质量让我印象深刻。我今天在这上面花了几个小时，但这感觉像是好几天的工作量。

我的花费

我最近开始使用 AgentsView 来帮助跟踪我在所有不同编码代理中的本地 LLM 使用情况。我今天发布了一篇 TIL，介绍了如何向该工具添加自定义的 Fable 定价，但我预计在不久的将来这就不需要了。

设置好价格后，我运行了以下命令来启动一个 localhost Web 服务器，以查看我的使用情况：

uvx agentsview serve

这是显示我今天在各个项目中 Fable 使用明细的矩形树图：

我今天使用了价值 $110.42 的 token，这些都包含在我 $100/月的订阅中。

还有一些鹈鹕

我在 Fable 上针对所有五个思考强度级别（thinking effort levels）运行了“Generate an SVG of a pelican riding a bicycle”。

以下是结果，包括每个结果的 token 成本：

有趣的是，在这次特定的运行中，高强度（high）最终使用的 token 竟然比中等强度（medium）还要少。

这是 Opus 4.8 的鹈鹕，供大家比较。

需要完整排版与评论请前往来源站点阅读。