The last six months in LLMs in five minutesThe last six months in LLMs in five minutes
The last six months in LLMs in five minutes
Simon Willison
2026年5月19日
我整理了这些带注释的幻灯片,它们来自我在 PyCon US 2026 上进行的五分钟闪电演讲,使用的是我最新版本的带注释演示工具。
#
我在 PyCon US 2026 上发表了这次闪电演讲,试图用五分钟时间总结过去六个月在大型语言模型(LLMs)领域的发展。
#
六个月是一个相当方便的时间段,因为它正好涵盖了所谓的“2025年11月拐点”。对 LLM,尤其是对代码生成而言,11月是一个关键月份。
#
首先,那个被普遍认为“最好”的模型(很大程度上取决于感觉)在短短五个月内就在三大供应商之间易手了五次。
#
和往常一样,我使用我的“画一只骑自行车的鹈鹕”测试来直观展示不同模型之间的差异。
为什么选择这个测试?因为画鹈鹕很难,画自行车也很难,而鹈鹕根本不会骑自行车……而且没有任何一家 AI 实验室会愚蠢到为了这样一个荒谬的任务去训练一个模型。
#
11月初,被广泛认可的“最佳”模型是 Claude Sonnet 4.5,它于9月29日发布。它给我画的是一只鹈鹕。
到了11月,GPT-5.1 超越它,接着是 Gemini 3,然后是 GPT-5.1 Codex Max,最后 Anthropic 凭借 Claude Opus 4.5 重新夺回了桂冠。
我认为在这几款模型中,Gemini 3 画的鹈鹕最好,但画得好不好不是全部。大多数从业者会同意,在接下来的几个月里,Opus 4.5 确实是当之无愧的王者。
#
起初花了一点时间才看清真相,但11月的真正新闻其实是:编码智能体变得好用了。
OpenAI 和 Anthropic 在2025年全年都在使用基于可验证奖励的强化学习(Reinforcement Learning from Verifiable Rewards)来提升其模型生成代码的质量,尤其是在搭配它们的 Codex 和 Claude Code 智能体框架时。
到了11月,这项工作的成果开始显现。编码智能体从“有时能用”变成了“基本可用”,跨越了一个质量门槛——现在你可以把它们当作日常主力工具来高效完成实际工作,而不用再花大量时间修复它们那些愚蠢的错误。
#
同样是在11月,发生了一件大事——一个叫 Pete 的人在某个当时默默无闻的开源项目“Warelay”中提交了第一个 commit。
#
在圣诞节假期期间,从12月到1月,我们很多人利用这段时间尝试这些新模型和编码智能体,看看它们到底能做什么。
它们确实能干!有些人兴奋过头了。我自己也一度陷入短暂的“LLM 妄想症”状态,开始疯狂启动一些雄心勃勃的项目,想看看自己能把它们推到什么程度。
#
这个游乐场演示展示了用我的 micro-javascript 库运行的 JavaScript 代码,它在 Python 中运行,通过 Pyodide 运行在 WebAssembly 中,再转译回 JavaScript,最终在浏览器中执行!
这很酷!但有没有人真的需要一个 buggy、slow、insecure 的半成品 JavaScript 在 Python 中的实现?
并没有。那段假期期间我还做了不少其他项目,后来都悄悄放弃了!
#
进入2月。还记得那个在11月底首次提交代码的 Warelay 项目吗?
#
在12月和1月期间,它经历了几次重命名……到了2月,它已经以最终名称 OpenClaw 之名席卷全球。
对于一个不到三个月大的项目来说,它所获得的关注简直令人震惊。
#
OpenClaw 是一个“个人 AI 助手”,我们实际上为这类产品创造了一个通用术语——基于 NanoClaw、ZeroClaw 等命名而来……它们被称为 Claws(爪)。
#
Mac Minis 在硅谷地区开始供不应求,因为人们购买它们来运行 Claws。
德鲁·布吕尼格开玩笑说,这是因为它们成了新的数字宠物,而 Mac Mini 就是你 Claw 的完美鱼缸。
#
对我来说,Claws 最好的比喻莫过于2004年电影《蜘蛛侠2》中阿尔弗雷德·莫利纳饰演的章鱼博士。他的爪子由人工智能驱动,只要抑制芯片未被损坏就是完全安全的……一旦受损,这些爪子就会变得邪恶并接管身体。
#
另外,二月份 Gemini 3.1 Pro 发布,给我画了一只非常棒的骑自行车鹈鹕。看看这个!它甚至还在篮子里放了一条鱼。
#
然后谷歌的杰夫·迪恩发推展示了一段动画:一只鹈鹕骑着自行车,一只青蛙骑在三轮车上,长颈鹿开着一辆小车,鸵鸟踩着旱冰鞋,乌龟玩滑板翻板,腊肠狗开着加长轿车。
所以 AI 实验室可能终于注意到这一点了!
#
过去一个月发生了许多事情。
#
谷歌发布了 Gemma 4 系列模型,这是美国公司推出的最强大的开源模型。
#
上个月,中国 AI 实验室 GLM 推出了 GLM-5.1——一个拥有1.5TB参数的巨型开源模型!这是一个非常有效的模型……前提是你能负担得起运行它的硬件。
#
GLM-5.1 给我画了一只非常专业的骑自行车鹈鹕。
#
不过当它尝试为其添加动画时,自行车弹到了顶部,还被扭曲了。
#
Bluesky 上的查尔斯建议我试试让它画一只北弗吉尼亚负鼠骑电动滑板车。
#
它做到了!我在其他模型上试过,它们根本做不到。"自黄昏起巡游联邦" 这句话太完美了,而且它还配有动画。
#
这是九月份 Claude Sonnet 4.5 画的鹈鹕,供对比参考。
#
这就是过去六个月的两大主题。编码代理已经变得非常强大……而能在笔记本电脑上运行的模型虽然远不如前沿模型,但表现却远超预期。
需要完整排版与评论请前往来源站点阅读。