AI 中心的数据黑洞The data black hole at the center of AI
现代AI系统展现出如同星系般璀璨的能力,但其核心却是一个巨大且难以察觉的“数据黑洞”。文章将AI的涌现能力与支撑这些能力的海量底层数据进行了隐喻式的对比,指出数据才是维系整个系统运转的决定性力量。我们在惊叹模型表现的同时,往往忽略了数据收集与处理所耗费的惊人资源。作者的核心观点是,这种对海量数据的极端依赖是AI繁荣背后不可忽视的本质。
Dwarkesh Patel
对智能的一种定义是样本效率(sample efficiency)——也就是说,在特定领域中,你需要接触多少数据才能流畅且熟练地进行操作。过去几年里,我们在训练样本效率方面是否真的取得了很大进展尚不清楚——看起来,我们更多地是极大地拓宽并改进了数据分布。
AI 变得越来越强的主要方式是添加更多、更好的数据,并扩大算力规模以生成这些数据。显然,强化学习(RL)是实现这一目标的主要手段。你可以将 RL 视为一种合成数据生成——你投入大量算力配合验证器(verifier),以寻找“好”的数据。然后,你训练模型来预测这些正确的输出轨迹(rollouts),这与训练模型预测互联网文本中的下一个词非常相似。
要使这一过程奏效,模型必须至少具备一定的先验概率来预期正确的解决方案,这就是为什么在模型需要掌握的每一个领域和技能中,你都需要海量的人类专家轨迹数据。
这种人类专家数据具有极强的任务针对性和定制化程度,怎么强调都不为过。如果你想获得一些直观感受,可以去看看 Mercor 或 Surge 网站上的职位描述。那里有招聘文字专家将旧版文档转换为精美 Word 文件的列表,有招聘法律专家撰写逼真的并购尽职调查或证券申报文件的列表,还有招聘管理咨询顾问撰写模板化市场研究的列表,以及数十个其他特定类别。
不仅如此,这些数据不仅必须高度针对特定领域,而且数据量还要极其庞大!每一项技能都对应着至少数百名人类专家,他们负责生成示例补全、编写评分标准(rubrics)并解释他们的思维链。生产这些专家标签的数据行业(以及能够将他们精心整理的技能凝结起来的 RL 环境)每年能赚取数十亿美元的收入,而且很快会达到数百亿美元,这并非没有原因。
想象一下,如果需要学习几十年的课程,配备数百位同时授课的教授以及数百万个练习任务,你才能学会如何润色一个 Word 文件。即使任务数量上的差异也低估了这种差距——模型必须去死磕那些数量更为庞大、难度也远为更高的任务。人类学生可能只会做一两道教科书上的练习题,而 GRPO 算法则会让模型针对每个任务生成数百到数千条输出轨迹。我们正在构建某种科学怪人(Frankenstein’s monster),由十亿个精心构建的示例拼接缝合而成。
Epoch 最近报告称,开源模型仅落后最先进的闭源模型 4 个月。我认为开源模型和曾经的落后者能够相对轻松地在几个月内追赶上前沿水平,其原因是数据才是推动进步的真正动力。而且数据可以很容易地从公开 API 中蒸馏出来,而超参数、训练技巧和架构上的微优化则不能——如果后者才是推动进步的主要因素,那么追赶前沿的难度就会比我们目前观察到的要大得多。
人们很容易忘记这些模型是在多么海量的数据上训练出来的,也忘了这比我们人类一生中所看到的数据要多出多少。我们将这些 AI 视为一个闪耀着能力光芒的星系,但在其中心,肉眼看不见的地方,将所有星座凝聚在一起的,是一个大得难以想象的数据黑洞。
我想在此回应一些针对这类对比的常见质疑:
但你可能会问,样本效率为何如此重要?各大实验室有两个首要目标:实现白领工作的自动化,以及实现 AI 研究本身的自动化。这两者真的都需要达到人类水平的样本效率吗?
对白领工作的押注在于,软件工程师、分析师或会计师所做的日常任务确实是非常普遍的。我们可以通过 RL 和 SFT 轻松地将这些常见任务纳入模型分布中。这些 AI 实验室的收入曲线表明,即使我们无法复现人类的样本效率,将任务纳入模型分布也能带来巨大的价值。
确实,训练 AI 来完成这些任务比训练人类要低效得多。但这又如何呢?人类的寿命根本无法企及这些模型所经历的训练量和广度。如果你作为一个人类,患有某种奇怪的认知障碍,必须通读 Github 上的每一个公共代码库才能成为一名合格的开发者,那么培养你是毫无意义的。在受教育初期你就得去领社会保障金了,而且即便你完成了训练,同一时间你也只能做一个项目。但是,AI 可以通过一次性倾注数千兆瓦级的算力来掌握这些技能。而且它们学到的东西可以分摊到数十亿次调用中,因此,即使我们在训练它们时极其低效,依然能赚得盆满钵满。
白领员工究竟需要进行多少根本无法提前训练的“分布外”思考?这其实更多是关于不同工作本质的问题,而非关于 AI 研究的问题。而且这也取决于具体的工作——有些工作足够机械和可预测,以至于早在现代 AI 时代到来之前就被自动化了,例如银行柜员或旅行社代理。但也有些工作需要每天处理远离数据分布的问题。即使是软件工程(据称是最早被 AI 取代的工作)也是如此。我敢打赌,到 2028 年,对人类软件工程师的总体需求将比现在更大,这在很大程度上归功于 AI 带来的互补性赋能。
实验室针对这些后续任务的计划是,首先实现 AI 研究的自动化,然后让自动化的 AI 研究员来解决这个样本效率问题。那么问题就来了:尚不具备人类水平样本效率的 AI,是否依然能够解决在实现类人智能与学习能力的道路上剩余的研究难题?
我会在未来的博客文章中探讨这个问题——我认为人们目前对智能爆炸的思考方式相当粗糙。人们要么完全否定 AI 加速 AI 发展的可能性,要么就直接假设这一过程的终点会凭空诞生一个“上帝”。人们并没有去理性推演,以 LLM 为起点的极其迅猛的发展,究竟会是一幅怎样的图景。
感谢 Mercury 赞助本文!Mercury 是我使用的银行服务平台,他们刚刚推出了一项名为 Command 的新 AI 功能。由于我基本上已经在使用 Mercury 来运营我的整个业务,因此 Command 能够获取所需的所有信息,从而完成实际工作。我可以让它发送发票、对支出进行分类,甚至进行转账……Command 全都能搞定。欢迎访问 mercury.com/command 了解更多。
需要完整排版与评论请前往来源站点阅读。