返回 2026-06-09
🤖 AI / ML

样本效率黑洞The sample efficiency black hole

dwarkesh.com·2026-06-08

当前 AI 模型展现出惊人能力的背后,隐藏着一个极度依赖海量数据的“样本效率黑洞”。与人类能够举一反三的高效学习机制不同,大语言模型必须吞噬几乎整个互联网的文本才能达到现有的智能水平。这种对庞大数据量的依赖导致了算力和能源消耗的指数级增长,成为限制模型进一步扩展的物理瓶颈。如果不解决样本效率问题,单纯依靠增加数据规模的 Scaling Law 终将面临物理与经济的双重极限。

Dwarkesh Patel

智能的一个定义是样本效率——也就是说,在一个特定领域,你需要接触多少数据才能流畅且熟练地进行操作。目前尚不清楚在过去几年里,我们在提升训练样本效率方面是否真的取得了长足进展——看起来,我们更多的是极大地拓宽并改善了数据分布。

AI 变得越来越好的主要方式是增加更多、更优质的数据,并首先扩大计算规模来处理这些数据。显然,RL 是实现这一目标的主要手段。你可以将 RL 视为一种合成数据生成过程——你投入大量算力配合验证器,以便找出“好”的数据。然后,你训练模型去预测这些正确的推演过程,这很大程度上就像你训练它去预测互联网文本中的下一个词一样。

为了使这一过程奏效,模型必须至少具备一定的先验概率来预测出正确的解决方案,这就是为什么在你想让模型掌握的每一个领域和技能中,都需要惊人海量的人类专家轨迹数据。

这些人类专家数据具有极强的任务特定性和高度定制化,这一点怎么强调都不为过。如果你想获得一些直观感受,可以去看看 Mercor 或 Surge 网站上的职位描述。上面有各种招聘信息:比如招募文档专家将旧文档转换为排版精美的 Word 文件,招募法律专家撰写逼真的并购尽职调查报告或证券备案文件,招募管理顾问撰写标准化的市场调研报告,还有几十个其他特定类别的职位。

不仅数据必须高度针对特定领域,而且数据量还必须极其庞大!每一项技能都对应着至少数百名人类专家,他们负责生成补全示例、制定评分标准,并解释自己的思维链。生产这些专家标签的数据行业(以及让这些经过精心分类的技能得以沉淀的 RL 环境)每年能赚取数十亿美元的收入,不久的将来更是会达到数百亿级别,这自然是有原因的。

想象一下,如果为了学会如何润色一个 Word 文件,你需要上长达几十年的课程,有几百位教授同时给你授课,还要完成数以百万计的练习任务。其实,单是任务数量的差异都低估了这种差距——模型必须死磕数量远超于此、且难度大得多的任务。人类学生可能只会把课本上的练习题做上一两遍,而 GRPO 算法会让模型针对每个任务生成成百上千次推演。我们正在打造一个科学怪人(Frankenstein's monster),把十亿个精心构建的示例拼接缝合在一起。

Epoch 最近发布报告称,开源模型仅落后最先进的闭源模型 4 个月。我认为,开源社区和以前的后进者之所以能相对轻松地在几个月内追上前沿水平,原因在于数据才是推动进步的真正引擎。而且,数据可以很容易地从公共 API 中蒸馏提取,但超参数、训练技巧和架构上的微优化却无法轻易获取——如果后者才是推动进步的主力,那么追赶前沿的难度将会比我们目前观察到的要大得多。

我们常常会忘记这些模型接受了多么海量的数据训练,也忽略了这比我们人类一生中所见到的数据要多出多少个数量级。我们将这些 AI 视为一个闪耀着能力光辉的星系,但在其中心,有一个肉眼无法看见的、将所有星辰维系在一起的,那是一个质量超乎想象的数据黑洞。

  • 如果一个人平均每小时听到和看到约 2000 个单词,那么从出生到成年,他们大约会接触 2 亿个 token。相比之下,前沿模型的训练数据量通常在几十万亿到数百万亿个 token 之间。这中间存在接近一百万倍的巨大差距。
  • 一个人在几个小时内就能学会遥操作任意的人形机器人或机械臂。机器人行业之所以还没有发展成一个数十万亿美元的产业,没能让无数的 Unitree G1 在世界上完成各种有用的工作,是因为我们的人工智能学习效率远低于人类,即使我们已经收集了数百万小时的演示数据,也不足以让它们去执行复杂的开放式任务。
  • 一个青少年只需大约 20 小时的练习就能学会开车。即使把他们大约 16 年积累的物理直觉算作相关的训练数据,其数据量也比 Waymo 和 Tesla 训练自动驾驶模型所需的数据至少少 3 到 4 个数量级。
  • 我想回应一下针对这类比较的一些常见质疑:

  • 数十亿年的进化就是我们的预训练,因此,仅仅将我们在一生中接触到的少量数据与这些冷启动的大语言模型(LLM)需要学习的数据相比是不公平的。人类的基因组大小约为 3GB,其中只有大约 1-2% 是蛋白质编码区。这根本不足以存储所谓的预训练模型参数(前沿模型的参数规模高达 TB 级别)。更恰当的类比或许是,进化找到了正确的超参数和损失函数(旁注:我曾与 Adam Marblestone 做过一期有趣的播客,他认为损失函数是进化过程中更重大的发现),但相当于模型参数训练的过程仍然发生在我们的有生之年,并被编码在一生中逐渐建立的大脑神经连接图谱中。退一步说,即使我们真的能把预训练基础模型所需的数万亿 token 解释为在追赶进化的过程,这也无法解释为什么 AI 获得边际新能力依然需要如此巨量的数据——一旦你接受了基础教育,你并不需要 100 位不同的教授来教你一门新的编程语言,但 AI(即使是已经预训练好的模型)却需要。
  • 这些对比并没有将我们一生中所见的多模态数据包含在内。如果把所有这些感官信息都算进去,从出生到成年,我们接触的数据大概在几百亿到数千亿个 token 的范围内。隔绝了此类感官信息的盲人/聋人可能缺乏相应的感知能力,但他们依然拥有与其他人相同的通用智能。这表明,这数十亿的感官 token 其实并不是让人类变得聪明的真正原因。事实上,只能通过手语和阅读(而非听觉)进行交流的失聪者,他们接收到的语言 token 远远低于我们之前计算的 2 亿个,但这已足以让他们成为完全的通用智能。
  • 扩展定律告诉我们,更大的模型样本效率更高。人脑有 100 万亿个突触——如果每个突触大约相当于 1 个参数,而当前的前沿模型大约有 5 万亿个参数,那么也许再增加一两个数量级的参数规模,我们就能实现人类水平的样本效率。扩展定律方程的工作原理是,参数项和数据项独立地计入损失(loss)中。如果你有一个在计算上达到最优训练的模型,假设你问,如果我只想最大化样本效率并使用更少的数据呢——并且我会不惜投入所需的任何数量的参数来实现这一目标。根据 Chinchilla 扩展定律论文中的常数(即使使用不同的常数,结果的性质也不会改变),即使你将参数数量增加到无限大,为了保持相同的损失,所需的数据量也只能减少约 10 倍。人类的样本效率比这些模型高出数千到数百万倍。当前模型的规模扩展根本无法弥补这一差距。这确实表明,人类完全处于另一条截然不同的扩展曲线上。
  • 但你可能会问,为什么样本效率很重要?各大 AI 实验室有两个总体目标:实现白领工作自动化,以及实现 AI 研究本身的自动化。要实现这两个目标,人类水平的样本效率是必需的吗?

    对白领工作的押注在于,软件工程师、分析师或会计师所做的常见任务,确实是普遍存在的。我们可以通过 RL(强化学习)和 SFT(监督微调)相当容易地将这些常见任务纳入分布(in distribution)中。这些 AI 实验室的营收曲线表明,即使我们不复制人类的样本效率,将任务纳入分布也能带来巨大的价值。

    是的,训练 AI 执行这些任务的效率远低于训练人类。但那又怎样?人类的寿命根本不允许经历这些模型所接受的如此庞大和广泛的训练。如果你作为一个人类,患有某种奇怪的学习障碍,需要读完 Github 上的每一个公共代码库才能成为一名合格的开发者,那么培养你是毫无意义的。在你受教育的早期阶段,你就得靠社会保障金度日了,而且即使你完成了训练,你也只能一次处理一个项目。但是 AI 可以一次性倾注千兆瓦级的算力来学习这些技能。而且它们学到的东西可以分摊到数十亿次调用中,因此即使在训练上极其低效,我们依然能大幅盈利。

    白领员工需要进行多少你根本无法提前训练的“分布外”(out-of-distribution)思考?嗯,这更多是关于不同工作本质的问题,而不是关于 AI 研究的问题。这也取决于具体的工作——有些工作足够机械和可预测,以至于在现代 AI 时代到来之前很久就被自动化了,例如银行柜员或旅行社代理。而其他一些工作则每天都需要处理与数据分布相去甚远的问题。即使是软件工程(被认为是 AI 最先取代的工作之一)也是如此。我敢打赌,到 2028 年,市场对人类软件工程师的整体需求将比现在更大,这在很大程度上得益于 AI 带来的互补效应。

    各大实验室针对这类后续工作的计划是,首先实现 AI 研究的自动化,然后让这些自动化的 AI 研究员去解决样本效率问题。那么接下来的问题就是,尚未达到人类水平样本效率的 AI,能否依然解决在实现类人智能与学习能力过程中剩余的研究难题。

    这个问题我会在未来的博客文章中探讨——我认为目前人们对智能爆炸的思考方式相当粗糙。人们要么完全否定 AI 能够加速 AI 发展进程的可能性,要么就想当然地认为最终会凭空诞生一个“神”。大家并没有去认真推演,如果以大语言模型(LLM)为起点,这种极其迅猛的进步究竟会是什么样子。

    暂无文章

    需要完整排版与评论请前往来源站点阅读。