🤖 AI / ML

下一个重大突破：AI 在工作中学习The next big breakthrough will be AIs learning on the job

dwarkesh.com·2026-06-26

AI 实验室目前可能正在浪费最具价值的数据资源。文章指出，AI 发展的下一个重大范式转移将是从静态训练转向让模型“在工作中学习”。这种动态学习机制将极大提升模型的实用性和进化速度。

Dwarkesh Patel

以下是各大实验室目前正在下的巨大研究赌注：如果我们在数千个多样化的 RL 环境中训练 AI 完成数以百万计的可验证任务，那么我们基本上就建成了 AGI。因为这样的训练将创造出通用的解决问题能力（比如在面对错误、失误和歧义时，如何在一个开放式任务上连续数周不断取得进展）。

对这一愿景持乐观态度的人会说，任何我们可能认为是当前学习范式根本缺陷的东西——例如数据效率低下和缺乏持续学习——都可以通过进一步扩大训练规模来强行克服，就像自然语言处理中所有所谓的“根本性”研究问题在投入到 LLM 的海量算力洪流面前土崩瓦解一样。

是的，这些模型在训练期间的样本效率只有人类的百万分之一。但训练是一项一次性成本，可以分摊到数十亿次用户会话中。重要的是模型在单次会话中有多聪明、多通用以及样本效率有多高，而随着我们进行更多的 RL 训练，这一点显然在不断改善。AI 能够在越来越长的时间跨度内解决越来越具挑战性的问题——任何使用过这些模型写代码的人都知道这一点。

同样，持续学习——定义为模型权重在部署期间得到更新——可能根本没有必要。原因同样在于，如果上下文学习在越来越长的时间跨度内变得极其出色，那我们就不需要将经验蒸馏回权重来实现在职学习了。人们常说，他们的员工在工作六个月或更长时间之前都无法产生净生产力，因此在线学习显然是培养胜任力所必需的。但如果你能把这六个月的时间直接塞进上下文窗口里呢？Transformer 架构上已经出现了大量创新，极大地增加了你可以存储的上下文长度。再经过几年的发展，我们为什么不能拥有任意大的上下文窗口呢？

为了探讨这是否行得通，我想先绕个弯，提出一个关于当前 AI 发展本质的问题，这个问题让我感到既困惑又有趣。为什么在计算机使用方面的进展如此缓慢？

计算机使用的验证是极其明确的（想要的 Etsy 商品是否已下单、活动所需的一切是否都已预订妥当、税款是否已提交）。那么，计算机使用的进展比编程、数学等其他可验证领域慢得多，这难道不奇怪吗？我相信这有很多原因，其中包括模型在预训练期间接触到的多模态数据要少得多，以及视频消耗上下文窗口的速度要快得多。[1]

但我认为有一个非常容易被低估的原因，同时也揭示了 AI 进步的河流只能缓慢侵蚀的峡谷峭壁，那就是：一个领域仅仅可验证是不够的。它还必须具有高度可规模化试错性——也就是说，你可以针对一个确定且可重放的模拟器运行大量并行的 rollout。如果你想让模型在编程方面变得更好，你可以创建一个环境，其中包含一个缺少某些功能的软件仓库，然后让 AI 负责创建这些功能，接着让一千个并行代理去攻克这个问题，每个代理都有自己完全相同的容器副本。[2]

但这对于 computer use 并不适用——至少没那么简单。你不可能让一千个 agent 去 Amazon.com 上尝试相同的结账流程。因为 Andy Jassy 会发现并检测到你的机器人，然后把你封杀掉。

你可以通过克隆 Slack、Gmail 以及所有其他常见的应用和网站来解决这个问题。但至少目前来看，这是一种非常耗费人力且难以扩展的环境构建方式。当然，一旦 AI 的编程能力足够强，能够以极高的保真度自行构建这些克隆环境，那么我确信 computer use 将取得巨大进展。而且这种方法还能一举两得，因为让 AI 从零开始重建复杂的完整应用，本身也是编程领域一个极佳的 RL 目标。

但是，尽管 computer use 本身可能很快就会被攻克，它目前的停滞不前却告诉我们：除非你能为某个领域构建出高度可重复的训练目标，否则模型很难取得太大进展。当然，其原因在于模型在训练期间的样本效率极其低下。这就是我在上一次长篇大论中所要表达的观点。

在 computer use 领域，我们或许可以通过构建这些可批量运行的确定性模拟器来弥补样本效率的不足。但对于 AGI 需要学习的许多其他不同技能来说，我们根本做不到这一点。

我们该如何训练 AI 去建立一家企业？你该如何打造一个极其擅长打赢官司的 AI？或者一个在市场日内交易中稳定盈利的 AI？又或者一个能帮助候选人赢得选举的 AI？这些 rollout 需要与世界进行交互，无法简单地在数据中心内重现。而且，外环验证可能需要数月或数年的真实世界行动才能获取结果，你无法通过并行扰动模型的动作成千上万次来重新观察，从而分离出到底是什么动作真正起了作用。

处理这种无法重置的非平稳环境是 RL 领域一个已知的开放性问题。我并没有指出什么新东西。但我确实想强调，由于世界上大多数领域的数据具有独特性和稀疏性，你需要具备高样本效率才能变得精通。

如果 AI 要掌握人类拥有的所有技能，甚至是没有人类掌握的技能，那么它们就必须能够从少量真实世界交互中，以非结构化、不可验证且模糊的方式所揭示的信息中进行学习。因为在许多领域，相关的训练信息根本无法以其他任何方式存在。

怎样的 RL 环境才能打造出一个在政治上像 Lyndon Johnson 一样厉害，或者在建立太空发射业务上像 Elon Musk 一样出色的 AI？

各大实验室押注 RLVR 能够泛化到所有其他领域。如果你在足够多的容器化、可复现的环境中进行训练，你就会开发出一个非常通用的 agent，它能够在一个 session 内制定并执行计划、从新信息中快速学习，甚至掌握新技能。

如果你把这个经过无尽 RLVR 训练的 AI 放到 1948 年的 Texas 政坛，它能在赢得参议院席位上给你比 LBJ 更好的建议；如果你在 2002 年给它 1 亿美元并让它大展身手，它就能为你建立 SpaceX。

RLVR 是否真的具备如此好的泛化能力是一个悬而未决的经验性问题：如果各大实验室在强化学习（RL）环境上的投入从数十亿美元增加到一万亿美元，你能得到一个在上下文窗口内运行的、完全通用且像人类一样的智能吗？

Dario 在我们一起录制的播客节目中说了一句很能说明问题的话，我认为这暗示了 RLVR 的泛化能力并没有那么无限强大。在解释为什么模型性能在长上下文中往往会下降时，他说道：

“模型训练时的上下文长度和实际部署时的上下文长度是不同的。如果你在较短的上下文长度下进行训练，然后试图在较长的上下文长度下进行部署，可能就会出现这些性能下降的情况。”

也许是我过度解读了，但他似乎在说，短周期的强化学习训练并不一定能泛化到长周期的强化学习性能上。如果我们连从短周期到长周期的泛化都做不到，那智能体（agents）又怎么可能从大量的白领任务训练中泛化出来，比如被投入到现实世界中，并能像山姆·沃尔顿那样从零开始建立一家企业呢？

而且，即使人工智能在积累了足够的上下文经验后，能够成为阿尔伯特·爱因斯坦或亨利·福特，如果你不能将这些学到的知识固化回权重中，所有这些都将是短暂且被浪费掉的。目前，实验室大约 30-50% 的算力用于推理，而这些算力目前在帮助改进模型方面并没有发挥任何实质性的作用。太浪费了！实际情况甚至比听起来更糟。因为只有在部署阶段，你的模型能够学习到的最有价值的信息才会显现出来（我所在的那些组织里到底发生了什么？他们用我来做什么？我在现实世界中往往会犯什么样的错误？）

我们就像培养了一个天才的研究生，却从不允许他去实习。我们只是不断地以环境上的强化学习训练的形式，给他提供越来越多的课堂案例研究。人工智能在经济体中被如此广泛地部署，处理数以百万计的不同任务，并接触到如此多隐性的组织特定和领域特定的知识，本可以积累下所有这些经验，而我们却不利用这些经验来训练 AI，这既荒谬又浪费。

但这种持续学习需要回到权重本身。人工智能不能只是一味地构建一个随着不断向更多用户学习而体积越来越大的 KV 缓存。这根本不具备可扩展性，也不是人类学习的方式。我们人类在参数和激活值之间并没有某种明确的分离。随着我们在一生中学习越来越多的东西，我们的头骨外也不会凸起一块越来越大的快速权重表示。当我们学习知识时，显然会有某种压缩过程，这实际上有助于泛化和顿悟。事实上，确实有一些患有自闭症学者症候群的人，能在多年后回忆起随机的数字表格或无意义的音节——这基本上就是模型在上下文中所具有的那种信息保真度。然而，如此庞大的信息量反而削弱了这些人类理解抽象概念和隐喻的能力。人类的持续学习与其说是把你所有的观察结果都放在嘴边随时调用，不如说是将正确的直觉和全局知识凿刻回权重之中。

但是，一旦你深入到权重层面，就不得不放弃上下文学习的样本效率。因为梯度更新的样本效率极低，所有成功上线的在线学习模型都不得不在数百万用户之间学习相同的内容。例如，Cursor Tab 模型每天通过预测超过 4 亿次请求的完全相同的目标来进行在线学习（该目标是哪些编辑被接受）。至少到目前为止，我们还没有看到模型能够为不同的用户在线学习不同的内容，因为虽然单次会话产生的数据可能足以让人类从中学习，但这并不足以训练出更强大的 AI。

当前的在线学习只能适用于非常有限的用例。但持续学习的核心在于，世界是非常复杂的，每份工作、每家公司和每个问题都不尽相同，你需要你的智能体能够学习与特定部署相关的具体信息，而这些信息根本无法塞进一个共享的训练过程中。比如你所在组织的各个部分是如何运作和协同的，如何与基础设施以及周围的人合作以推进某个大型项目，常见的故障模式有哪些，等等。

这就是样本效率和持续学习实际上存在深度联系的原因所在。模型在“实际运行中”可用的数据相对较少。要从这些数据中学习，就需要样本效率。模型可以在上下文中做到这一点，但由注意力机制[3]即时构建并赋予这种样本效率的“快速权重”在内存方面的扩展性非常差。因此，我们需要能够实现某种中间表示的架构创新。我之前谈到过，关于这方面已经有许多可行的思路，比如稀疏注意力和 KV 缓存压缩。在我看来，架构似乎并不是持续学习的根本瓶颈。

也许瓶颈在于损失函数。如何根据从特定会话中学到的信息来更新权重（即改进模型本身）？即便在这个层面上，乍一看似乎也有很多应该可行的想法。最近很多人都在讨论 On-policy 自蒸馏。如果你想了解更多关于它是如何运作的，可以看看几周前 Sasha Rush 给我做的一个简短的即兴黑板讲座。但对这个解释稍微总结一下，其核心思想是：我们鼓励基础模型在尝试解决某些现实世界问题时，做出与积累了漫长会话所有上下文的模型相同的预测。这整个过程的核心，就是将模型在一次会话中学到的知识蒸馏回权重本身。

这比 RLVR 更好，原因有两点。第一，OPSD 不需要外部循环的可验证奖励。我们只需要一个能够在上下文窗口内学到正确内容的模型。只要有了这个模型，我们就可以训练基础模型去匹配那个在会话期间积累了所有这些经验的“资深教师模型”。第二，OPSD 提供了比朴素 RL 密集得多的监督信号——你不需要在整个轨迹中投射单一的奖励，而是可以根据教师模型和学生模型[4]之间每个 token 的概率差异来进行训练。

对于持续学习，OPSD 也优于监督微调（SFT）。你可以想象，在这种应用场景下最朴素的 SFT 做法，就是训练基础模型去预测会话期间观察到的所有 token。但作为学习目标，这毫无意义——你在工作中变得更强的方法，并不是一字不差地回忆起每天发生的所有对话记录。相反，而是通过提炼和巩固那些有助于你更好地完成工作的少数洞见和知识。

强化学习（RL）训练不会出现这种失败模式，它非常擅长将梯度更新集中在那些与获得正确结果相关的部分——这就是为什么 RL 的更新极其稀疏。这对于持续学习来说是一个非常重要的特性，因为在工作中学习时，你不想覆盖并忘记基础模型已经掌握的其他所有知识。

几个月前我曾写过一篇文章，认为在每个样本中，RL 学习到的信息远少于监督学习。但这可能是一件好事，而非坏事——你只需对模型做出实现目标所绝对必需的最小改变，仅此而已。OPSD 保留了 RL 的这一特性：它不像监督学习那样驱使你像弹弓一样直奔教师分布，而是让你只提取在真实世界任务中达成相同结果所必需的知识。

因此，OPSD 是解决样本效率问题的一种方法：你可以利用这些稀缺的真实世界经验，将所有信号压缩成一个微小且针对性强的更新。但还有一个更具推测性的想法。我们称之为“做梦”（dreaming）[5]。如果 AI 能够构建一个良好的现实模拟环境，并在其中排练新技能，或者尝试替代策略并强化有效的部分，那么它就可以在相同的实际时间内体验到多出几个数量级的模拟样本。

在 DeepMind 发布 AlphaZero 几年后，一组研究人员训练了一个名为 EfficientZero 的模型。如果这个模型和一名人类都有总计 2 小时的时间，来与一个他们以前从未见过的 Atari 游戏模拟器对战，这个模型很可能会击败人类新手。这是否意味着这个模型的样本效率比人类更高？嗯，这取决于你如何衡量样本效率。因为在真实游戏中的每一步，EfficientZero 都在它的“脑海”中玩了数十局模拟游戏。同样地，未来的 LLM 可能会消耗极少的真实世界数据，同时在它们为自己构建的环境中不断练习。当然，最大的区别在于，模拟整个世界比模拟围棋游戏要困难得多。这就是为什么我说这个想法更具推测性。

如果这能成功，它将成为继预训练、RL 和推理时计算之后的第四个扩展轴。你可以称之为测试时训练或“做梦”。模型将计算资源用于编写 RL 环境，并在其中排练将为特定用户在生产环境中实际使用的技能。你不再需要在 Codex、Cursor 或 Claude 上点击 /compact，那只相当于消耗少量算力来生成摘要，为你提供一种持续学习的假象；相反，你点击的是 /dream，它会消耗海量算力来构建一个模型在现实世界中正在经历的“电子游戏”版本，并针对它进行训练。

那么，在2027年底，持续学习可能会是什么样子，我们又该如何实现它？所有这些 RLVR 训练都在打造一个智能体，当它面对一个陌生问题时，能够找到头绪，尝试不同的策略，并在遇到障碍时进行迭代。这就是 RLVR 带给你的关键所在：一个至少有能力开始积累真实世界经验的 AI。一旦具备了这一点，你就可以将其推向现实世界去完成实际工作，甚至是那些超出训练分布的项目。

到这个时候，有效上下文长度可能已经大幅扩展，以至于这个 AI 能够与你进行长达整整一周的实际时间协作。在一周结束时，你可以对它给出好评或差评。如果你给出好评，基础模型就会提炼出该 AI 在此期间学到的所有内容，并且它可能会使用 OPSD、dreaming、某种我们甚至还不知道的技术，或者上述所有方法的组合来实现这一点。这样，AI 就能在其通过 RLVR 事先明确训练过的领域的相邻领域中变得更强。而在下一轮中，它又会在之前在线学习内容的相邻领域取得进步。AI 技能、知识和能力的范围将远远扩展到模型部署前接受训练的可验证领域之外。正如预训练创造了一种基础智能，使其足够聪明以通过进一步的 RLVR 训练成为有能力的智能体一样，RLVR 也创造了一个足够胜任的智能体，使其能够真正部署到现实世界中，从而利用未来的持续学习范式。

到这个时候，AI 变强的主要方式不再是模型向公众发布前所接受的训练。相反，它源自它们在全球广泛部署并参与各种不同任务所积累的经验。每次你与 AI 交互时，它都会变得更聪明。这不仅是因为它一直在从你之前所有的会话中学习，还因为它一直在与世界各地所有其他用户的交互中学习。这既令人恐惧又令人兴奋，并且与当前 AI 改进的方式大不相同。

Mercury 几乎实现了我企业整个账单支付流程的自动化。我只需给承包商提供一个专用的电子邮件地址，当他们发送发票时，Mercury 就会自动为我创建一个付款草稿供我审核。我不再需要在收件箱中到处寻找发票，也不必处理杂乱无章的电子表格来追踪我的账单。Mercury 全包了。在 mercury.com 了解更多。

仅仅一小时的视频就会消耗大约 100 万个文本 token。

我听说 AI 智能体特别擅长 Go 语言，因为它拥有出色的标准化包管理器，而 Python 和 Typescript 则拥有“框架、类型定义方法和实用库的庞大组合空间”。这样的空间不太适合通过梯度下降进行干净、高吞吐量的并行搜索。

让我们以 Llama 3 70B 为参考。每增加一个 token，KV cache（也就是在学习上下文过程中建立起来的表示）就会增长 320 KB。而在训练中，模型每个 token 仅存储 0.075 比特的信息（这是一个拥有 160 亿比特参数的 70B 模型，在 15 万亿个 token 上进行训练）。因此，在上下文学习和预训练之间，每个 token 存储的信息量存在 3500 万倍的差异。

你可能会预见到 OPSD 存在一个明显的问题：在学生模型犯错之前及犯错的那一刻，你能得到密集的监督，但轨迹的其余部分都是从这个错误衍生出来的——它会沿着一条已经出错的路径继续发展，而教师模型本来是绝不会走这条路的。因此，过了那个点之后，在后续的生成过程中，你再也得不到教师模型有用的反馈了。这个问题似乎可以通过一种名为“轨迹精炼蒸馏”（Trajectory-Refined Distillation）的技术来解决，即由教师模型从错误发生处开始重写轨迹，将其变成一段完整且正确的后续内容。

顺带一提，我指的并不是泄露的 Claude Code 源代码中即将推出的“做梦”（dreaming）功能，我猜那个功能更多是让模型为自己编写大量的 Markdown 文件。我的意思是实际去更新模型自身的权重。我只是认为，你无法通过给自己留便签来积累新技能。我在之前的一篇博客文章中用过这样一个类比：想象一下，如果学生学习演奏萨克斯风的方法，就是去尝试一下这件他们从未碰过的新乐器，把出错的地方记录下来，然后再把它交给下一个同样是第一次演奏该乐器的学生。

需要完整排版与评论请前往来源站点阅读。