返回 2026-05-20
🤖 AI / ML

The last six months in LLMs in five minutesThe last six months in LLMs in five minutes

simonwillison.net·2026-05-19

The last six months in LLMs in five minutes

Simon Willison

2026年5月19日

我整理了这些带注释的幻灯片,它们来自我在 PyCon US 2026 上进行的五分钟闪电演讲,使用的是我最新版本的带注释演示工具。

#

我在 PyCon US 2026 上发表了这次闪电演讲,试图用五分钟时间总结过去六个月在大型语言模型(LLMs)领域的发展。

#

六个月是一个相当方便的时间段,因为它正好涵盖了所谓的“2025年11月拐点”。对 LLM,尤其是对代码生成而言,11月是一个关键月份。

#

首先,那个被普遍认为“最好”的模型(很大程度上取决于感觉)在短短五个月内就在三大供应商之间易手了五次。

#

和往常一样,我使用我的“画一只骑自行车的鹈鹕”测试来直观展示不同模型之间的差异。

为什么选择这个测试?因为画鹈鹕很难,画自行车也很难,而鹈鹕根本不会骑自行车……而且没有任何一家 AI 实验室会愚蠢到为了这样一个荒谬的任务去训练一个模型。

#

11月初,被广泛认可的“最佳”模型是 Claude Sonnet 4.5,它于9月29日发布。它给我画的是一只鹈鹕。

到了11月,GPT-5.1 超越它,接着是 Gemini 3,然后是 GPT-5.1 Codex Max,最后 Anthropic 凭借 Claude Opus 4.5 重新夺回了桂冠。

我认为在这几款模型中,Gemini 3 画的鹈鹕最好,但画得好不好不是全部。大多数从业者会同意,在接下来的几个月里,Opus 4.5 确实是当之无愧的王者。

#

起初花了一点时间才看清真相,但11月的真正新闻其实是:编码智能体变得好用了。

OpenAI 和 Anthropic 在2025年全年都在使用基于可验证奖励的强化学习(Reinforcement Learning from Verifiable Rewards)来提升其模型生成代码的质量,尤其是在搭配它们的 Codex 和 Claude Code 智能体框架时。

到了11月,这项工作的成果开始显现。编码智能体从“有时能用”变成了“基本可用”,跨越了一个质量门槛——现在你可以把它们当作日常主力工具来高效完成实际工作,而不用再花大量时间修复它们那些愚蠢的错误。

#

同样是在11月,发生了一件大事——一个叫 Pete 的人在某个当时默默无闻的开源项目“Warelay”中提交了第一个 commit。

#

在圣诞节假期期间,从12月到1月,我们很多人利用这段时间尝试这些新模型和编码智能体,看看它们到底能做什么。

它们确实能干!有些人兴奋过头了。我自己也一度陷入短暂的“LLM 妄想症”状态,开始疯狂启动一些雄心勃勃的项目,想看看自己能把它们推到什么程度。

#

这个游乐场演示展示了用我的 micro-javascript 库运行的 JavaScript 代码,它在 Python 中运行,通过 Pyodide 运行在 WebAssembly 中,再转译回 JavaScript,最终在浏览器中执行!

这很酷!但有没有人真的需要一个 buggy、slow、insecure 的半成品 JavaScript 在 Python 中的实现?

并没有。那段假期期间我还做了不少其他项目,后来都悄悄放弃了!

#

进入2月。还记得那个在11月底首次提交代码的 Warelay 项目吗?

#

在12月和1月期间,它经历了几次重命名……到了2月,它已经以最终名称 OpenClaw 之名席卷全球。

对于一个不到三个月大的项目来说,它所获得的关注简直令人震惊。

#

OpenClaw 是一个“个人 AI 助手”,我们实际上为这类产品创造了一个通用术语——基于 NanoClaw、ZeroClaw 等命名而来……它们被称为 Claws(爪)。

#

Mac Minis 在硅谷地区开始供不应求,因为人们购买它们来运行 Claws。

德鲁·布吕尼格开玩笑说,这是因为它们成了新的数字宠物,而 Mac Mini 就是你 Claw 的完美鱼缸。

#

对我来说,Claws 最好的比喻莫过于2004年电影《蜘蛛侠2》中阿尔弗雷德·莫利纳饰演的章鱼博士。他的爪子由人工智能驱动,只要抑制芯片未被损坏就是完全安全的……一旦受损,这些爪子就会变得邪恶并接管身体。

#

另外,二月份 Gemini 3.1 Pro 发布,给我画了一只非常棒的骑自行车鹈鹕。看看这个!它甚至还在篮子里放了一条鱼。

#

然后谷歌的杰夫·迪恩发推展示了一段动画:一只鹈鹕骑着自行车,一只青蛙骑在三轮车上,长颈鹿开着一辆小车,鸵鸟踩着旱冰鞋,乌龟玩滑板翻板,腊肠狗开着加长轿车。

所以 AI 实验室可能终于注意到这一点了!

#

过去一个月发生了许多事情。

#

谷歌发布了 Gemma 4 系列模型,这是美国公司推出的最强大的开源模型。

#

上个月,中国 AI 实验室 GLM 推出了 GLM-5.1——一个拥有1.5TB参数的巨型开源模型!这是一个非常有效的模型……前提是你能负担得起运行它的硬件。

#

GLM-5.1 给我画了一只非常专业的骑自行车鹈鹕。

#

不过当它尝试为其添加动画时,自行车弹到了顶部,还被扭曲了。

#

Bluesky 上的查尔斯建议我试试让它画一只北弗吉尼亚负鼠骑电动滑板车。

#

它做到了!我在其他模型上试过,它们根本做不到。"自黄昏起巡游联邦" 这句话太完美了,而且它还配有动画。

#

这是九月份 Claude Sonnet 4.5 画的鹈鹕,供对比参考。

#

这就是过去六个月的两大主题。编码代理已经变得非常强大……而能在笔记本电脑上运行的模型虽然远不如前沿模型,但表现却远超预期。

需要完整排版与评论请前往来源站点阅读。