🤖 AI / ML

AI 中心的数据黑洞The data black hole at the center of AI

dwarkesh.com·2026-06-19

现代AI系统展现出如同星系般璀璨的能力，但其核心却是一个巨大且难以察觉的“数据黑洞”。文章将AI的涌现能力与支撑这些能力的海量底层数据进行了隐喻式的对比，指出数据才是维系整个系统运转的决定性力量。我们在惊叹模型表现的同时，往往忽略了数据收集与处理所耗费的惊人资源。作者的核心观点是，这种对海量数据的极端依赖是AI繁荣背后不可忽视的本质。

阅读原文

Dwarkesh Patel

对智能的一种定义是样本效率（sample efficiency）——也就是说，在特定领域中，你需要接触多少数据才能流畅且熟练地进行操作。过去几年里，我们在训练样本效率方面是否真的取得了很大进展尚不清楚——看起来，我们更多地是极大地拓宽并改进了数据分布。

AI 变得越来越强的主要方式是添加更多、更好的数据，并扩大算力规模以生成这些数据。显然，强化学习（RL）是实现这一目标的主要手段。你可以将 RL 视为一种合成数据生成——你投入大量算力配合验证器（verifier），以寻找“好”的数据。然后，你训练模型来预测这些正确的输出轨迹（rollouts），这与训练模型预测互联网文本中的下一个词非常相似。

要使这一过程奏效，模型必须至少具备一定的先验概率来预期正确的解决方案，这就是为什么在模型需要掌握的每一个领域和技能中，你都需要海量的人类专家轨迹数据。

这种人类专家数据具有极强的任务针对性和定制化程度，怎么强调都不为过。如果你想获得一些直观感受，可以去看看 Mercor 或 Surge 网站上的职位描述。那里有招聘文字专家将旧版文档转换为精美 Word 文件的列表，有招聘法律专家撰写逼真的并购尽职调查或证券申报文件的列表，还有招聘管理咨询顾问撰写模板化市场研究的列表，以及数十个其他特定类别。

不仅如此，这些数据不仅必须高度针对特定领域，而且数据量还要极其庞大！每一项技能都对应着至少数百名人类专家，他们负责生成示例补全、编写评分标准（rubrics）并解释他们的思维链。生产这些专家标签的数据行业（以及能够将他们精心整理的技能凝结起来的 RL 环境）每年能赚取数十亿美元的收入，而且很快会达到数百亿美元，这并非没有原因。

想象一下，如果需要学习几十年的课程，配备数百位同时授课的教授以及数百万个练习任务，你才能学会如何润色一个 Word 文件。即使任务数量上的差异也低估了这种差距——模型必须去死磕那些数量更为庞大、难度也远为更高的任务。人类学生可能只会做一两道教科书上的练习题，而 GRPO 算法则会让模型针对每个任务生成数百到数千条输出轨迹。我们正在构建某种科学怪人（Frankenstein’s monster），由十亿个精心构建的示例拼接缝合而成。

Epoch 最近报告称，开源模型仅落后最先进的闭源模型 4 个月。我认为开源模型和曾经的落后者能够相对轻松地在几个月内追赶上前沿水平，其原因是数据才是推动进步的真正动力。而且数据可以很容易地从公开 API 中蒸馏出来，而超参数、训练技巧和架构上的微优化则不能——如果后者才是推动进步的主要因素，那么追赶前沿的难度就会比我们目前观察到的要大得多。

人们很容易忘记这些模型是在多么海量的数据上训练出来的，也忘了这比我们人类一生中所看到的数据要多出多少。我们将这些 AI 视为一个闪耀着能力光芒的星系，但在其中心，肉眼看不见的地方，将所有星座凝聚在一起的，是一个大得难以想象的数据黑洞。

如果一个人平均每小时听到和看到约 2000 个单词，那么从出生到成年，他们将接收约 2 亿个 token。相比之下，前沿模型的训练数据量在数十万亿到上百万亿个 token 之间。这中间存在接近一百万倍的差距。

一个人可以在几个小时内学会远程操作任意一台人形机器人或机械臂。机器人行业之所以还没有成为一个十万亿美元规模的产业，还没有一支由 Unitree G1 组成的无尽大军在世界各地完成各种有用的工作，原因在于我们的 AI 学习效率远低于人类，甚至我们收集的数百万小时的示教数据，也不足以让它们去执行复杂的开放式任务。

一个青少年只需大约 20 个小时的练习就能学会开车。即使把他们过去约 16 年里积累的物理直觉作为相关训练数据计算在内，这也比 Waymo 和 Tesla 训练其自动驾驶汽车模型所需的数据量少了至少 3 到 4 个数量级。

我想在此回应一些针对这类对比的常见质疑：

数十亿年的进化是我们的预训练，因此仅仅将我们一生中所接收的有限数据，与这些从零开始（冷启动）的 LLM 所需学习的数据进行对比是不公平的。人类的基因组大小约为 3GB，其中只有大约 1-2% 是蛋白质编码。这根本没有足够的空间来存储那些所谓预训练好的模型参数（前沿模型的规模已达 TB 级别）。更恰当的类比或许是，进化找到了正确的超参数和损失函数（旁注：我曾与 Adam Marblestone 录制过一期有趣的播客，他认为损失函数是进化过程中更重大的发现），但等同于参数训练的过程依然发生在我们的一生中，并编码在我们一生中建立的大脑神经连接图谱里。退一步讲，即使我们能将预训练一个基础模型所需的数万亿 token 解释为在弥补进化的过程，这也无法解释为什么 AI 获得边际能力还需要如此庞大的数据——一个人一旦接受过教育，在学习一门新的编程语言时并不需要 100 位不同的教授来教，但 AI 却需要（即使它们已经过预训练）。

这些对比并没有将我们一生中接收的多模态数据包含在内。如果算上所有这些感官信息，从出生到成年，我们接收的数据量大概在数百亿到数千亿个 token 之间。与这些感官信息隔绝的盲人或聋哑人可能缺乏相关感官的能力，但他们依然拥有与其他人相同的通用智能。这表明，这数十亿的感官 token 并非真正让人类变得聪明的原因。事实上，那些只能通过手语和阅读（而非听觉）进行交流的聋哑人，他们接收的语言 token 远少于我们之前计算的 2 亿，但这依然足以使他们具备完全的通用智能。

缩放定律告诉我们，更大的模型具有更高的样本效率。人类大脑约有100万亿个突触——如果每个突触大约相当于1个参数，而当前的前沿模型大约有5万亿个参数，那么也许再将参数规模扩大一到两个数量级，我们就能达到人类水平的样本效率。根据缩放定律公式的运作机制，参数项和数据项是独立计入损失函数的。假设你有一个在计算上达到最优训练的模型，你可能会问：如果我只是想最大化样本效率并使用更少的数据，并且为了实现这个目标我会不惜投入所需的任何数量的参数，结果会怎样？根据 Chinchilla 缩放定律论文中的常数（即使使用不同的常数，结果的性质也不会改变），即使你将参数数量增加至无穷大，也只会将保持相同损失所需的数据量减少约10倍。人类的样本效率比这些模型高出数千到数百万倍。当前模型的缩放根本无法弥补这一差距。这确实表明，人类完全处于另一条不同的缩放曲线上。

但你可能会问，样本效率为何如此重要？各大实验室有两个首要目标：实现白领工作的自动化，以及实现 AI 研究本身的自动化。这两者真的都需要达到人类水平的样本效率吗？

对白领工作的押注在于，软件工程师、分析师或会计师所做的日常任务确实是非常普遍的。我们可以通过 RL 和 SFT 轻松地将这些常见任务纳入模型分布中。这些 AI 实验室的收入曲线表明，即使我们无法复现人类的样本效率，将任务纳入模型分布也能带来巨大的价值。

确实，训练 AI 来完成这些任务比训练人类要低效得多。但这又如何呢？人类的寿命根本无法企及这些模型所经历的训练量和广度。如果你作为一个人类，患有某种奇怪的认知障碍，必须通读 Github 上的每一个公共代码库才能成为一名合格的开发者，那么培养你是毫无意义的。在受教育初期你就得去领社会保障金了，而且即便你完成了训练，同一时间你也只能做一个项目。但是，AI 可以通过一次性倾注数千兆瓦级的算力来掌握这些技能。而且它们学到的东西可以分摊到数十亿次调用中，因此，即使我们在训练它们时极其低效，依然能赚得盆满钵满。

白领员工究竟需要进行多少根本无法提前训练的“分布外”思考？这其实更多是关于不同工作本质的问题，而非关于 AI 研究的问题。而且这也取决于具体的工作——有些工作足够机械和可预测，以至于早在现代 AI 时代到来之前就被自动化了，例如银行柜员或旅行社代理。但也有些工作需要每天处理远离数据分布的问题。即使是软件工程（据称是最早被 AI 取代的工作）也是如此。我敢打赌，到 2028 年，对人类软件工程师的总体需求将比现在更大，这在很大程度上归功于 AI 带来的互补性赋能。

实验室针对这些后续任务的计划是，首先实现 AI 研究的自动化，然后让自动化的 AI 研究员来解决这个样本效率问题。那么问题就来了：尚不具备人类水平样本效率的 AI，是否依然能够解决在实现类人智能与学习能力的道路上剩余的研究难题？

我会在未来的博客文章中探讨这个问题——我认为人们目前对智能爆炸的思考方式相当粗糙。人们要么完全否定 AI 加速 AI 发展的可能性，要么就直接假设这一过程的终点会凭空诞生一个“上帝”。人们并没有去理性推演，以 LLM 为起点的极其迅猛的发展，究竟会是一幅怎样的图景。

感谢 Mercury 赞助本文！Mercury 是我使用的银行服务平台，他们刚刚推出了一项名为 Command 的新 AI 功能。由于我基本上已经在使用 Mercury 来运营我的整个业务，因此 Command 能够获取所需的所有信息，从而完成实际工作。我可以让它发送发票、对支出进行分类，甚至进行转账……Command 全都能搞定。欢迎访问 mercury.com/command 了解更多。

需要完整排版与评论请前往来源站点阅读。