返回 2026-06-11
🤖 AI / ML

Initial impressions of Claude Fable 5Initial impressions of Claude Fable 5

simonwillison.net·2026-06-09

Initial impressions of Claude Fable 5

Simon Willison

2026年6月9日

我没有提前获取今天发布的 Claude Fable 5 的内测权限,但在过去的 5.5 个小时里,我一直在对它进行全方位测试。我的初步印象是,这玩意儿简直就是个性能巨兽。它虽然运行缓慢且价格昂贵,但迄今为止,它处理我抛给它的所有任务都显得游刃有余。正如目前前沿模型的常态一样,真正的挑战在于寻找它做不了的任务。

首先,我们来回顾一下它的主要特性。

Anthropic 声称,Claude Fable 5 提供了与 Claude Mythos 5 相同的性能,但设置了更为严格的安全护栏,以防止其被用于有害目的。这些护栏被触发的频率相当高,以至于 Claude API 专门引入了新机制,用于在您触碰护栏时进行提示,甚至提供了一个新选项,可以在请求被拒绝时自动回退到其他模型。

Claude Mythos 5 也在今天发布,Anthropic 表示它“具备与 Claude Fable 5 相同的能力,但未配备安全分类器”。

这些模型拥有 100 万 token 的上下文窗口,最大输出 token 数为 12.8 万,知识截止日期为 2026 年 1 月。

它们的定价是 Claude Opus 4.5/4.6/4.7/4.8 的两倍:输入为 10 美元/百万 token,输出为 50 美元/百万 token。使用更长的上下文不会产生额外费用。

除此之外,其升级指南比 Opus 4.8 的同类指南要单薄得多。

大模型的味道

描述 Fable 最贴切的方式就是它给人一种“大”的感觉。这不仅体现在速度和成本上,更体现在它的知识储备量上。

这是一个示例提示词,我用它来比较 Fable 和 Opus 4.8 的知识储备(保留了原有的拼写错误):

列出 Simon Willion 的所有开源项目,按最新排序,并附上首次发布的粗略日期

Opus 4.8 的回答是这样开始的:

我没有关于 Simon Willison 所有开源项目的可靠、全面且经过日期验证的清单,我想对此保持诚实,而不是冒险为您提供不准确的日期或编造的条目。以下是我有相当把握告诉您的内容:Simon Willison 的知名项目:LLM(约 2023 年)——一个用于与大型语言模型交互的命令行工具和 Python 库。Datasette(约 2017 年)——一个用于探索和发布数据的工具,可能是他近期最著名的项目。sqlite-utils(约 2018-2019 年)——一个用于操作 SQLite 数据库的 Python 库和 CLI 工具,通常与 Datasette 配合使用。Django(2005 年)——他是 Django Web 框架的共同创造者之一,另一位是 Adrian Holovaty,该框架最初是在《Lawrence Journal-World》报纸开发出来的。他还维护着一个庞大的 Datasette 插件生态系统以及许多小型实用工具(通常命名为 shot-scraper,以及各种用于导入数据的 *-to-sqlite 工具等)。

这回答得还不错。以下是 Fable 5 对完全相同提示词的回答的开头部分——这两个模型都是在无法访问搜索的情况下运行的:

我想你指的是 Simon Willison —— 这位多产的开源开发者、Django 的联合创始人以及 Datasette 的创建者。首先要提醒一下:列出一个真正完整的清单是不可能的。Simon Willison 的多产是出了名的——他发布了数百个代码库(仅 Datasette 就有 100 多个插件,其中许多是他编写的),而且我的知识有截止日期,所以我会漏掉他最近的工作。以下是他的一些知名项目及大致的首次发布日期,按时间倒序排列:知名项目(大致日期):files-to-prompt(2024 年 4 月)——将文件拼接成单个提示词供 LLMs 使用;datasette-extract(2024 年)——使用 LLMs 提取结构化数据的插件;LLM(2023 年 5-6 月)——用于与大型语言模型交互的 CLI 工具和 Python 库,以及庞大的插件生态系统(llm-gpt4all、llm-mistral、llm-claude 等,自 2023 年起);symbex(2023 年 6 月)——在 Python 代码中搜索符号;ttok 和 strip-tags(2023 年 5 月)——用于 LLM 管道的 token 计数和 HTML 清理的 CLI 工具;datasette-lite(2022 年 5 月)——通过 WebAssembly/Pyodide 完全在浏览器中运行的 Datasette;shot-scraper(2022 年 3 月)——通过 Playwright 自动截取网站屏幕截图;s3-credentials(2021 年 11 月)——用于创建限定范围的 AWS S3 凭证的 CLI 工具;django-sql-dashboard(2021 年)——用于 Django 的 SQL 报告仪表板;Dogsheep 套件(2019 年)——个人分析工具:twitter-to-sqlite、github-to-sqlite、healthkit-to-sqlite、dogsheep-beta 等;sqlite-utils(2018 年)——用于操作 SQLite 数据库的 CLI 工具和 Python 库;Datasette(2017 年 11 月)——他的旗舰项目;用于探索和发布数据的工具;csvs-to-sqlite(2017 年)——将 CSV 文件转换为 SQLite;各种早期工具(约 2007-2010 年)——soupselect、json-head、geocoders 等;Django(2003-2005 年开发,2005 年 7 月开源)——与 Adrian Holovaty 在 Lawrence Journal-World 共同创建。

(顺便附上 GPT-5.5 的结果。它列出的项目甚至比 Fable 还多!)

过去我曾说过,我不在乎模型知道多少——我希望它们能以实用的方式处理文本和代码,并通过搜索工具主动查找所需的信息,而不是把这些信息硬编码到模型的权重里。

但这样的知识储备在很大程度上能反映模型的大小——你可以把多得多的关于世界的细节塞进更多的参数中。

知道得更多是否意味着模型能更好地完成我们交给它的任务?我完全可以想象,一个对现代库和模式有更深层了解的编程模型,能够更高效地处理编程任务。

Fable 真的比 Opus 大吗?Anthropic 没有透露任何关于模型大小的信息,所以我们只能靠蛛丝马迹来猜测,但它的速度、价格以及我对其知识储备的亲自测试让我认为,这是一个大模型。也许是迄今为止所有厂商中最大的。

在 Claude.ai 中使用 Fable

Anthropic 在其所有平台上都提供了 Fable 5——包括 Claude.ai 聊天界面、网页版 Claude Code、Claude Code CLI 以及 Claude Cowork。该模型在订阅计划中“截至 6 月 22 日”可用(我目前使用的是每月 100 美元的 Max 计划),之后将需要额外付费。

Claude.ai 经常被低估。自 2025 年 9 月以来,每次聊天都可以访问一个完整的容器环境来运行代码,包括安装额外软件包甚至直接从 GitHub 克隆代码库的能力。

上周我发布了 micropython-wasm,这是一个 Python 库,它使用 wasmtime 在 WebAssembly 中运行定制构建的 MicroPython,从而为不受信任的 Python 代码充当沙箱环境。

我决定看看 Fable 能否将其升级为运行完整的 Python。我一开始使用了这个提示词:

从 GitHub 克隆 simonw/micropython-wasm,并研究如何在这里使用完整的 Python 而不是 MicroPython

Fable 发现可以使用 Brett Cannon 的 cpython-wasi-build 构建版本来实现这一点,但由于环境限制,它自己无法下载这些文件。

于是我从那个页面下载了两个 zip 文件,并将它们上传到了 Claude:

这是 Brett Cannon 的构建文件(附件 python-3.zip 和 _build-python-3.zip)

就这样。它运行了几分钟,就把整个事情搞定了。

回复的一部分内容如下:

我尝试了更简洁的 single-zip-stdlib 方案来缩小文件系统暴露面,但 CPython 的 getpath 引导程序如果不做更多前缀调整,就无法在 zip 文件内部找到 encodings——目录预打开(directory-preopen)方案运行稳定,所以概念验证(PoC)使用了这种方法。zip 路径的问题是可以解决的,但需要对 _PYTHONHOME/frozen-getpath 进行处理。

于是我说:

在 single-zip-stdlib 问题上再多尝试一下

然后过了一会儿:

我想要一个包含整个系统的 wheel 包,里面要有 Python 封装、WASM 文件以及标准库,这样我就可以执行 uv run --with path-to-whl python -c "demo code"

……然后它给了我这个 13.9MB 大小的 cpython_wasm-0.1.0-py3-none-any.whl 文件。你可以像这样使用该 wheel 的 URL 和 uv 在沙箱中尝试运行 Python 代码:

uv run --with https://static.simonwillison.net/static/cors-allow/2026/cpython_wasm-0.1.0-py3-none-any.whl \
  cpython-wasm -c 'print(45 ** 56)'

这是完整的聊天记录。

这是一个非常出色的开局。

使用 Claude Code 为 Datasette Agent 和 LLM 添加功能

在我意识到今天是 Fable day 之前,我今天的挑战性目标是给 Datasette Agent 添加一项新功能:我希望该代理软件中的工具调用能够实现在执行中途暂停,并直接向用户请求批准的能力。

这似乎是一个交给新模型来处理的、相当有分量的任务。

在这一天的时间里,Fable 不仅解决了这个问题,还在我的底层 LLM 库中发现并实现了四个 issue,这将有助于在工具调用中支持这种高级的暂停-恢复机制。

起初它使用了一些略显别扭的 hack 手段让一切运行了起来,但当我告诉它对 LLM 本身的修改也在范围内时,它立刻着手清理这些 hack,并将其转化为 LLM 原生支持的功能。

我的挑战性目标最终演变成了 LLM 0.32a3 版本,并且几乎完全是由 Fable 编写的。以下是发布说明:

为了满足 Datasette Agent 的人机协同(human-in-the-loop)ask_user() 功能的需求,对工具调用(tool calls)的工作方式进行了以下改进:工具实现可以声明一个名为 llm_tool_call 的参数,以便接收当前调用的 llm.ToolCall 对象。这使得它们能够访问当前的 llm_tool_call.tool_call_id。参见 Accessing the tool call from inside a tool。#1480 现在,每个工具调用都保证拥有一个唯一的 tool_call_id——未提供该 ID 的提供者将获得一个合成的带有 tc_ 前缀的 ULID。#1481 工具可以抛出 llm.PauseChain 异常以干净地暂停工具链,这对于等待人工批准等操作非常有用。该异常在传播给调用者时会附带 .tool_call 和 .tool_results(已完成的同级结果),并且不会使用占位符结果进行模型调用。参见 Pausing a chain from inside a tool。#1482 并发工具执行的失败语义:异步同级工具调用在暂停或钩子异常传播之前,总是会运行至完成。#1482 现在,链可以从以未解决的工具调用结尾的 messages= 历史记录中恢复:这些调用会在第一次模型调用之前,通过常规的 before_call/after_call 机制执行,并跳过那些已有结果的调用。execute_tool_calls() 方法还接受一个新的可选参数 tool_calls_list=,用于执行显式提供的 ToolCall 对象列表,以代替响应所请求的调用。参见 Resuming a chain with pending tool calls。#1482 修复了一个异步工具执行器会静默丢弃对未包含在 tools= 中的工具的调用的 bug——这些调用现在会返回 Error: tool "..." does not exist 结果,从而与同步执行器保持一致。#1483

Fable 为此在 API 设计、测试、代码和文档方面展现出的质量让我印象深刻。我今天在这上面花了几个小时,但这感觉像是好几天的工作量。

我的花费

我最近开始使用 AgentsView 来帮助跟踪我在所有不同编码代理中的本地 LLM 使用情况。我今天发布了一篇 TIL,介绍了如何向该工具添加自定义的 Fable 定价,但我预计在不久的将来这就不需要了。

设置好价格后,我运行了以下命令来启动一个 localhost Web 服务器,以查看我的使用情况:

uvx agentsview serve

这是显示我今天在各个项目中 Fable 使用明细的矩形树图:

我今天使用了价值 $110.42 的 token,这些都包含在我 $100/月的订阅中。

还有一些鹈鹕

我在 Fable 上针对所有五个思考强度级别(thinking effort levels)运行了“Generate an SVG of a pelican riding a bicycle”。

以下是结果,包括每个结果的 token 成本:

有趣的是,在这次特定的运行中,高强度(high)最终使用的 token 竟然比中等强度(medium)还要少。

这是 Opus 4.8 的鹈鹕,供大家比较。

需要完整排版与评论请前往来源站点阅读。