🤖 AI / ML

Grant Sanderson：AI与数学的未来Grant Sanderson – AI and the future of math

dwarkesh.com·2026-06-30

知名数学科普创作者 Grant Sanderson（3Blue1Brown）深入探讨了人工智能对纯数学领域的深远影响。数学由于其高度依赖逻辑与严密推演的本质，极有可能成为最先展现出超级智能能力的学科。对话展望了当 AI 能够自主提出数学猜想并完成复杂证明时，人类数学家在未来科研中的角色将如何重塑。

阅读原文

Dwarkesh Patel

和 Grant 聊天总是非常有趣。

AI 在数学领域的进展一直比其他领域快得多。因此，数学领域正非常具体地向我们展示 AI 在其他领域的进展将会是什么样子。即使在数学领域内部，发展也呈现出参差不齐的态势。这究竟是怎样的景象？

数学史上的那些最重要的概念性突破，其本质是什么？它们与 AI 目前所能做到的有多大差距？

总体而言，AI 是增进还是削弱了人类对该领域的理解？

让 AI 系统性地尝试将现有文献中的思想联系起来，其中蕴含的潜力有多大？

对于那些有抱负的数学家、程序员，以及其他对正被 AI 彻底改变的领域充满热情的学生，Grant 有什么建议？

在 YouTube 上观看；在 Apple Podcasts 或 Spotify 上收听。

Gemini 3.5 Live Translate 正是我上次去中国时梦寐以求的功能。它能检测 70 多种语言，并近乎实时地进行翻译……而且还能保留你原本的语速和语调。如果你正在开发需要实时翻译的应用程序，你应该试试 Gemini 3.5 Live Translate。请访问 ai.studio/live 开始使用。

Cursor 的工具集让我能够在播客制作中运用模型处理海量任务。例如，Cursor 会剪掉我制作的每一期节目中的广告，以便我能将它们发布到 Bilibili 上。它还能帮我准备访谈——我有一个装满书籍和论文的代码库，Cursor 可以从中筛选，为任何特定问题找到最合适的文件。访问 cursor.com/dwarkesh 亲自体验 Cursor 吧。

Jane Street 赞助了 3Blue1Brown，因此 Grant 有很多机会与各位 Jane Street 的员工相处。他实际上刚刚与其中几位录制了一次访谈，所以当我们坐下来录制本期节目时，他告诉了我一些他学到的东西，比如 Jane Street 是如何刻意模糊角色定义，以确保员工不断学习和成长的。前往 3b1b.co/janestreet 观看 Grant 的完整访谈。

(00:00:00) – AI 正在发现新的证明。这算不算 AGI？

(00:11:32) – 对概念性突破的验证周期可能长达一个世纪

(00:26:12) – 我们能看懂 AI 对黎曼猜想的证明吗？

(00:38:08) – AI 能找到不同领域之间隐藏的桥梁吗？

(00:53:48) – 为什么现实世界中的任务无法完全套入强化学习（RL）环境

(01:07:07) – 优秀的写作需要心智理论，而这正是 AI 所缺乏的

(01:16:02) – 为什么学习仍将依赖于人工筛选

Dwarkesh Patel

今天，我正在和 Grant Sanderson 聊天，他运营着 3Blue1Brown，目前正在做一个新项目，记录 AI 在数学领域取得的进展。我想和你谈谈这个，是因为 AI 在数学领域的进展比其他任何领域都要快。无论这里正在发生什么，也无论我们看到 AI 的进展是否在发生，都将预示着随着 AI 变得越来越强大，世界其他领域将会发生什么。

我想从三年前第一次采访你时问过你的一个问题开始。我当时问你，一旦我们有了能在国际数学奥林匹克竞赛（IMO）中获得金牌的 AI，那不就是 AGI 了吗？考虑到这些问题有多难，它难道不是就能完成人类能做的任何事吗？

你当时给出了一个回答，事后证明非常明智且正确。你说它只会成为另一个基准测试，就像 AI 正在通过的所有其他基准测试一样。显然，从那时起 AI 在总体上已经变得更好了，但当这一切发生时，并不会出现某种“顿悟”时刻。

首先，我很好奇你基于什么经验法则认为那个论断成立。其次，我很好奇你认为这种局限性还能持续多久。当 AI 已经能够解决千禧年大奖难题时，你认为在经济活动中，是否还可能存在许多人类正在做但 AI 仍无法自动化的任务？

Grant Sanderson

这是一个有趣的问题，因为如果事先不知道解决方案是什么样，就很难回答。如果我们以 IMO 为例，你三年前提问的核心在于，探讨这些问题的某些解决方案似乎确实需要创造力。这些问题的设计者试图想出一些你无法轻易通过训练来应对的题目。

IMO 不为人知的秘密是，你确实可以通过训练来解决其中的很多问题。随着整个 AI 和数学项目的推进，正如你所指出的，它之所以有趣的其中一个原因在于，AI 存在一个高低不平的能力边界，而数学恰好处于其中一个高峰。

但这种高低不平的特性具有分形特征，因为当你放大观察数学内部的具体进展时，会发现有些问题比其他问题容易得多。如果我们只看 IMO，这现在已经不是什么新闻了。这两年来它们表现得非常出色。如果不是因为以下原因，它们在 2024 年本可以拿到金牌。它们非常厉害，基本上直接破解了几何题。IMO 有四大类问题：几何、数论、代数和组合数学。至于几何，自 2024 年起它只需 19 秒就能解出，因为它是一个暴力求解器。

这个不为人知的秘密是，对于学生来说，也有一种暴力的解题方式。组合数学是个变数：它的问题看起来更像是好玩的谜题。那一年的考试中有两道组合数学题，但这并不固定。共有四个类别和六个不同的问题，因此哪个类别会有两道题全凭运气。如果当时有更多的几何题，它们那年就能拿到金牌了。

但它在那些组合数学题上却显得有些吃力。那些试图为人类守住数学这最后一块阵地的人可能会说，这些题目需要更多的创造力。即便如此，你问题的核心意图——如果它们解决了千禧年大奖难题，这是否也意味着能胜任大量的白领工作？——表明，无论我们现状与实现这一目标之间的瓶颈是什么，它都与让 AI 更擅长白领工作的瓶颈是一致的。

我们可以设想几种不同的情况。如果我们把重点放在黎曼猜想上，解决它会是什么样的？这些 AI 在特定知识领域表现得极其出色，对此有极其深入的了解，然后又了解另一个领域，又一个领域。你已经指出了这一点。拥有如此超人类的广度、对所有领域都了如指掌，却找不到将它们联系起来的那些灵光一闪，这确实很奇怪。

我认为我们已经开始看到它在寻找自身擅长领域之间联系的火花。我相信我们会讨论到这个。如果解决黎曼猜想的本质也是类似的，那给我的感觉是，它与做好白领工作所需的能力截然不同。

而且我们有理由相信，这可能正是该解的本质所在。我不知道你是否了解 Hugh Montgomery 和 Freeman Dyson 在 IAS（普林斯顿高等研究院）的故事。这虽然有点偏题，但非常有趣。我不记得他们是在吃午餐还是什么其他时候，总之有这么一位数论学家，他正试图弄清楚黎曼 zeta 函数的零点对之间的统计相关性。

黎曼假设探讨的核心就是这些零点是否都位于同一条直线上。他找到了一个可以探究的定量问题，并写下了一个公式。它看起来就像是 1/sin²(x) 之类的表达式。物理学家 Freeman Dyson 听到后说：“我认识这个表达式。在研究随机厄米矩阵（Hermitian matrices）的特征值时就会出现这个表达式，”而这种矩阵在研究原子核的能级时也会出现。

这两个看似截然不同的事物在统计学上竟然是一致的，这一想法促使人们开始探索随机矩阵理论的某些方面是否可能与黎曼 zeta 函数有关。这条路能否结出硕果，我认为目前还尚无定论。但是，将两个不同的领域桥接在一起——如果证明黎曼假设的解正是要进一步探索此类想法的话——这就体现了我们期望 LLM 能够擅长数学的那种特质。它们是量子物理专家，也是解析数论专家。它们应该有能力察觉到这种相似性，而不需要像 Montgomery 和 Dyson 那样非得凑巧在一起吃午饭并聊起这个话题。这与普通的白领工作截然不同。在某种程度上，如果你觉得很难把 AI 当作编辑来使用，那并不是因为它们无所不知，而只需要它们在信息之间找到那灵光一现的联系。

另一种可能性是……怎么打比方比较好呢？也许我们可以想想费马大定理（Fermat's Last Theorem），从费马提出这个问题的那一刻起，到最终解的面貌呈现出来，这个解最终涉及了极其深奥复杂的数学工具。那个问题的美妙之处在于，你可以用极其简单的语言来表述它。你只需探讨 x^n + y^n = z^n。当 n 大于 3 时，这个方程有整数解吗？

你可能会以为会有一种初等数论的方法来解决它，但就我们目前所知，根本不存在。而实际的解决方案，或许存在更简单的途径，但可能也只能是这样了。它包含了一套极其复杂的思想，建立在几个世纪以来以椭圆曲线（elliptic curves）为核心的研究之上。然后还有另一座思想的大山，围绕着被称为模形式（modular forms）的事物展开。只有当这两座大山都建立起来之后，你才能提出将它们联系起来的那个正确问题。

如果解决黎曼假设需要建立一座新的大山，那么这就涉及一种特殊的技能——提出正确新想法的能力——这与它们目前展现出的智能特征截然不同。这当然不是你雇用的视频剪辑师所需要具备的技能。但是，如果它能够构建出作为正确新理论的“大山”，从而凝练出我们思考某个学科应有的方式，那么这种级别的智能如果不能渗透到数学本身建山之外的其他经济领域中，反而会令人惊讶。

Dwarkesh Patel

或者退一步说，即使它确实无法做到白领人类能做的每一件事，它也依然会产生变革性的影响，而像在国际数学奥林匹克竞赛（IMO）中夺得金牌并不会给世界带来这样的影响。

首先，我确实想指出，我在这里完全是在改变评判标准。两三年前我采访 Dario 时，我问过这样一个问题：为什么他们无法利用其庞大的知识库将各种想法联系起来，从而得出新的发现。这似乎是那种即使智力一般的人，如果掌握了这么多信息也能做到的事情：比如从“这种药物会导致偏头痛”和“另一种情况会导致这种结果”的事实中，推断出也许同一种药物可以治愈这两种疾病。

从外行的角度来看，数学显然是一个这样的领域：为单位距离问题猜想找到反例就是这类事情的典型代表。所以这完全是在改变评判标准。但接下来我们可以问，下一个基准测试是什么？既然 AI 已经做到了我们本该认为它们能做到的事情，那么接下来什么才会令人叹服？

这里有几个候选方向。其一是能够在一开始就提出有趣的问题，其二是提出能够创立或统一各领域的新型对象或概念。就第一点而言，我们现在有这些千禧年大奖难题，是因为数学家们注意到了它们。黎曼之所以提出黎曼 zeta 函数的想法，是因为他认为该函数的零点与素数的分布密度之间存在某种联系。

弄清楚我们最初为什么会觉得某件事物值得研究、为什么要构建某个数学对象并试图解答与之相关的问题——尤其是解答那个特定的问题——这似乎正是可以作为下一个基准测试的事情。

Grant Sanderson

你在这里举了两个非常生动的例子。对于任何对单位距离猜想感到好奇的人，有一个名为 Polylog 的数学频道制作了一期非常棒的视频来探讨这个问题。

所有这些讨论都促使人们反思做数学研究的过程。他们会想：“哦，这东西能做出这么厉害的成果。这对我们意味着什么？”视频里的一位嘉宾引用了这样一句话：“优秀的数学家证明定理，卓越的数学家提出猜想，而最伟大的数学家提出定义。”这几乎与你的观点如出一辙。我们需要猜想生成器，然后是定义生成器。这才是顶级的数学家。

我不太明白你要如何将其设定为一个基准测试。通常，当我想到“基准测试”这个词时，我想到的是某种明确的终点线。球进了就是进了，没进就是没进。你可以明确地说：“是的，这搞定了。”部分原因是为了能够进行 RLVR 等操作，另一部分原因则是为了确认你在给出答案时没有改变评判标准。OpenAI 能够用“推翻单位距离猜想”作为新闻标题，因为这是一个清晰、明确的事件。它确实做到了。但试想一下，试图用“GPT-5.4 提出了一个绝佳的猜想”来做标题。“我们保证，大家都觉得这是个好猜想。”这根本达不到同样的效果。

但这也许并不能否认，思考这个问题本身是正确的。如果它最终演变成类似基准测试的形式，即因为我们可以量化一个猜想有多好，就给出一个分数说它通过了，那我会感到惊讶。它真正发挥作用的形式，可能更像是你在与数学家交流时，能感受到他们对于 AI 辅助工作的实用性在态度上发生了转变。

你提到的这个系列，目前完全没有制作完成，可能还要几个月才能出炉，它的主要形式是我们采访许多数学家。有趣的是，我们在一年多前就开始做这件事了，很高兴能看到他们在 2025 年中期到我们现在所处的 2026 年之间，谈论 AI 的方式发生了一点态度上的转变。在现实世界中，这是一段非常短的时间；但在 AI 领域，这已经是漫长的岁月了。我们能够在这漫长的岁月中观察到这种态度的转变。

我认为，衡量生成猜想能力的方式将更加主观，并基于这种态度的转变。它将体现在数学家们表示，他们不仅使用它来解决问题，而且当他们退后一步，思考甚至该决定自己的研究领域是什么时，与某个模型的对话对此真的很有帮助。我不认为你会看到它以这样的头条新闻形式出现，即宣布又攻克了一个基准测试。

Dwarkesh Patel

这非常有趣。那些你无法为其制定基准测试的事情，通常也就是（至少在当前的范式下）你无法轻易去训练的事情。基准测试和训练环境之间其实没有根本的区别。

人们很容易提出某种二分法，认为“这是 AI 无法做某事的深层原因”，但结果往往是你思考它的方式错了，而且实际上不久之后它就能做到。但我还是想提出——

Grant Sanderson

不管怎样，你还是打算提出几个的。

Dwarkesh Patel

结果很可能会证明，在相对不久的将来，我们有办法训练 AI 去做这些事情。但这似乎必须与当前的 RLVR 训练有所不同。

我很好奇的一点——也是在我看来推动了数学乃至整个科学界许多重大进步的东西——是提出一种思考问题的新方法，或一种理解世界的新方式，它能够统一不同的领域，孕育出全新的领域，并解决我们最初甚至没有打算去解决的问题。爱因斯坦当年思考广义相对论（GR）的原因，并不是因为他想解释光为什么会弯曲，或者黑洞为什么存在。这些现象他一开始根本不需要去解释。

在数学领域，作为一个完全的门外汉（甚至不知道自己在这里说的是否正确），似乎常常有这样的情况：证明某个特定问题的方法可以激发出新的概念化思维——这会带来一个全新的领域、一种极具生产力的全新思维方式；而有的证明方法则不能。我很想听听你谈谈伽罗瓦（Galois）提出群论的过程，区分他证明五次方程没有求根公式的方法，以及阿贝尔（Abel）在几年前提出的另一种没有孕育出群论的证明方法。

如果你想对“群论是否是一个有趣的概念”进行一个验证闭环——在这里是不是做出了有用的成果，或者为什么这个证明更好？——这个验证闭环可能长达一百年。它伴随着密码学的出现和物理学的进步，以及群论的思想与理解物理学中的对称性息息相关。关于为什么它一开始就是一个富有成效的概念，经历了一个长达百年的验证闭环。

Grant Sanderson

你戳中我的痛处了，因为我曾在2022年打算做一个关于伽罗瓦（Galois）的项目，虽然后来搁置了，但我花了整整一年的时间去深入思考他的成就。我可能会一不小心在细节上讲得太久，到时候你可以随时打断我。

这对你的观点来说是一个完美的例子，因为要描述为什么它是一个有价值的洞见，并不能归结于立竿见影的实用性。当然，如果你在考虑 RLVR 环境，这将会非常困难。但有趣的是，即使由当时的人类验证者来评判，人们也花了很长的时间才认识到它的价值。

对于爱因斯坦和广义相对论（GR），人们立刻就能感觉到这是一个好理论。而伽罗瓦理论之所以是一个如此有趣的例子，是因为你真真切切地看到这样一个长达百年的思想片段，它在许多不同人的脑海中流转，最终才确立为数学界公认的优秀成果。稍微回顾一下……你想了解这个问题的背景吗？我们在学校里都学过一元二次求根公式。

Dwarkesh Patel

我以为你要说我们在学校里都学过群论，但我好像错过了那堂课。

Grant Sanderson

我们都学过群论……不对，是一元二次求根公式。这是早就为人所知的。在某种意义上，希腊人能够求解二次方程，但他们并没有真正用代数的形式来书写。实际上，是阿拉伯人写下了那个公式。

有一个关于意大利数学家决斗的有趣故事——不是真正的拔剑决斗，只是智力比拼——他们秘密发现了三次方程的求根公式，紧接着又找到了四次多项式的求根公式。因此，对数学家来说，一个顺理成章的开放性问题是：能不能找到一个求解五次方程的公式？

四次方程的求根公式简直是个怪物。要把它完整写下来极其疯狂。你通常不会把它完整地写出来，而是将其拆解成一套计算步骤。你可能会觉得，这些公式的复杂性在呈指数级增长。因此，在漫长的数百年中，根本没有人能真正解答那个问题。

通常，我们说阿贝尔（Abel）是第一个证明这一点的人。他是一位年轻早慧的挪威数学家。他证明了这根本不可能。也就是说，你根本找不到五次方程的求根公式。他起初以为自己找到了一个，但后来证明了这是不可能的。

不过我认为，要论真正的功劳，我们还得往前回溯一点，谈谈拉格朗日（Lagrange）。他找到了针对这个问题的正确提问方式。我会非常宏观地讲一下。他在研究这个问题时认识到，能否求解这些多项式，与理解某些代数表达式的对称性密切相关。

如果我写下 a + b + c + d，仅仅是四个变量相加，然后对它们进行排列，表达式的值并不会改变。然而，如果我写下 a + b * c + d，某些排列不会改变它的值，但有些会。他有一个非常精彩的洞见：如果你能找到包含四个自由变量的表达式，并且其所有排列只呈现出三个不同的值，这就与将四次降为三次产生了一种出人意料的联系。

他开始探讨我们能否找到五次多项式的问题，并思考是否可以扩展那种方法。要扩展那种方法，你必须有一个包含五个自由变量的表达式，使得当你在所有5的阶乘种排列中对它们进行排列时，它只呈现出四个或更少的值。你可以把它放进谜题书里，或者放进一个连十二岁孩子都能参与的脑筋急转弯里。你很容易就会觉得这是一项不可能完成的任务。

拉格朗日坐在那里说：“这是解决寻找五次多项式这个问题的一种策略。看起来它可能是行不通的，至少通过这种策略是这样。”但那是历史上人们第一次产生一种直觉：某种关于对称性的问题，才是研究这些多项式的正确方法。在他的脑海中，这仅仅是一种方法。实际上存在着更紧密的联系，这还有待发现。而且，也许我们不应该去寻找公式，而应该提出相反的问题：你能证明这是不可能的吗？他可以说是播下了这颗种子。

大约五十年后，阿贝尔肯定读过拉格朗日的著作并受到了影响。我们知道，伽罗瓦在爱上数学时，也非常推崇拉格朗日。很难想象这两位年轻天才在那个问题上提出了极其相似的洞见，而这些洞见不是源于拉格朗日。

但回到你关于“是否能够验证这是一个好主意”的问题，拉格朗日并没有得出任何结果。他没有解决这个问题，所以这并不是那种基于已有解答就知道这是一个正确问题的案例。他仅仅是提出了这个问题。这个问题本身具有某种内在的趣味性。在当时，这对数学来说也并不是非常重要。大多数人更感兴趣的是其在物理学上的应用。这几乎是一种边缘的、消遣性的、业余爱好者式的事情。

阿贝尔开始研究五次方程的相关问题，但后来他被建议将更多精力投入到椭圆函数的研究中，因此在他英年早逝之前，他的大部分工作都集中于此。他二十六岁时死于肺结核。随后，伽罗瓦将这两种思想推向了正确的方向，他真正理解了抽象的本质。他在狱中写了一篇非常精彩的文章。我们可以大谈特谈他的人生故事，那相当离奇。但他当时只是个十几岁的少年，身在狱中，他曾试图提交他的数学论文，但都被拒绝了。

所以，再次考虑到可验证的奖励，当时作为验证者函数的学术界拒绝了他所写的东西。坦率地说，文章写得不是很连贯。它不是一个完整的证明。他并没有清晰地表达出这个理论到底是什么。他只是一个还在摸索门道的初出茅庐的年轻数学家。他得到的可验证奖励就是：“不行。”但他有一种直觉，觉得其中大有文章。

因此，他在写这篇关于数学本质的长篇论述，认为数学是会随着时间的推移而发生这些转变的。他谈到了代数本身的出现，以及如何从仅仅用数字进行思考，转变为能够熟练运用纯粹的代数表达式，而不必拘泥于解释这些表达式。他有一种直觉，认为我们似乎还应该进行另一层抽象，即不是去思考公式本身，而是去思考这些公式背后的对称性。但这在当时仍然是一个相当模糊的理论。

如果你想说他得到的“经验证的奖励”是解决了一个别人未能解决的问题，那么，Abel 已经证明了五次方程是不可解的。那 Galois 到底在做什么呢？原则上，Galois 理论让你可以拿出一个特定的多项式，并为你提供规则来判断该特定多项式是否具有你能写下来的根。例如，对于 x5 - 1，你知道它的一个解是 1。或者对于 x5 - 2，你可以写出 2 的五次方根。

所以，并不是说你无法写出每一个五次多项式的解，而是你能否找到一个特定的多项式，并证明你无法用根式写出它的解？他甚至也没有完全解决这个问题。他没有针对某个具体的例子证明他做不到。甚至连描述他到底解决了什么问题都非常棘手。

然后他去世了。这是一个非常浪漫的故事，讲述了他参加决斗的经历。有很多关于他据说在决斗前夜写下自己所有想法的传说，但实际上，他之前已经尝试将它们发表了五次。

Dwarkesh Patel

研究五次方程似乎对你的健康没什么好处。

Grant Sanderson

这非常糟糕。如果你是个年轻的天才，千万别去研究五次方程。他请求他的兄弟和挚友把他的笔记交给 Gauss，交给当时重要的数学家，因为他觉得这里面有东西。即便如此，它也没有真正引起重视。他的兄弟和朋友试图把它们传播出去，但直到二十年后，Liouville 才看到这些笔记，看出其中可能有些门道，并试图将它们整理出来，理解 Galois 到底想表达什么。即便如此，又过了大约二十年，Jordan 才真正整理出类似于现代群论的论述，而这些被归功于 Galois。

你很容易想象历史会有不同的发展轨迹，这些想法可能源自数学的其他领域，而且如果 Galois 不是一个个性如此张扬的人，他可能已经被历史遗忘了。但从 Lagrange 隐约觉得根的对称性可能是正确的方向，到这一切看起来像现代群论，中间经历了漫长的时期。很多时候，它甚至都没有通过人类审稿人的“验证奖励”（认可）。它被放在某个人的桌子上，他们会说：“我真的不知道这里面有没有什么名堂。”你必须遇到那个能赏识它的人。

即便如此，在那个时候它也并没有真正解决实际问题。你提到了密码学和物理学之类的事物。直到进入二十世纪，才有了 Gell-Mann 开始思考，理解某些群分解的本质与粒子的构成方式之间或许存在关联。他纯粹基于群论问题预言了 quarks 的存在。这是群论中最有趣的应用之一：甚至预测 quarks 的存在本身就是一个群论问题。距离 Lagrange 的时代已经过去了很久，才出现了这样的应用。

所以你必须得问，如果不以解决问题为基础，我们该如何衡量进步？又该如何捕捉到 Galois 脑海中的那种直觉，当他说“我觉得这里面有文章”的时候？当 Lagrange 说“我认为这就是思考它的正确方式”时，他脑海中的直觉是什么？当 Liouville 说“这个早已离世的年轻人的这些零散笔记可能大有文章”时，他脑海中的直觉又是什么？这真的很难用语言去准确描述。

我现在正在制作的另一个系列视频，是关于“压缩即智能”这一整体理念的。尽管这并不完全是我切入的角度，但“更具预测性的更小表达式会让人感觉更智能”这种想法确实有道理。所以我就在想，在多大程度上，你能提供某种可验证的奖励机制，这种奖励不仅仅基于你是否解决了问题或解决的是什么问题，而是基于解决问题所需概念的精简程度。

回到 Riemann hypothesis 的证明，如果 AI 解决了它，那会是什么样子？我认为可能出现的第三种方式就是它纯粹是靠“死磕”。就像你可能会有一个写满几千页的 Fermat's Last Theorem 的初等证明，但它可能会极其缺乏连贯性。而更清晰的看待方式是借助 elliptic curves 等理论。也许会有某个长达几千页的 Riemann hypothesis 证明，但没人能从中真正获得什么启发，而人们真正想要的是这些思想简洁、压缩后的版本，这样才有助于人类理解。

也许你会把 Kolmogorov complexity 引入到你试图量化“优雅”的尝试中。我认为这并不容易，但我确实认为，为了奖励那种类似于 Galois 的直觉，而不是仅仅奖励你是否解决了一个问题，这是你必须去做的事情。

Dwarkesh Patel

很难为科学提出某种启发式方法。但很明显，人类一直以来都在以某种方式做着这件事，而且毫无疑问，AI 在未来的某个时刻也能做到。

Grant Sanderson

这不仅与可验证的奖励有关，而且想必最终的目标在于理解，也就是人类的理解。即使你真的有了某个长达几千页的数学证明，或是某种宏大的全新物理学理论，目标依然是理解。

也许如果目标仅仅是可预测性，你可以直接让自动化工程师去建造火箭飞船，即使我们对它们的工作原理一无所知，但依然能乘坐它们在星际间穿梭。但总会有一大批人想要去理解背后的原理。你依然会希望存在某种精简函数，能将这种复杂的思维方式提炼成正确的思维，就像 Newton 的万有引力定律一样。你仍然会希望训练 AI 能够做到这一点，并找到那种压缩后的表达方式。

Dwarkesh Patel

人们尤其是对数学有这样一种担忧：AI 会证明黎曼猜想，但我们对数学的理解却不会因此有任何提升。对此我有几个问题。第一个问题是，这是否是你应该预期会发生的情况。

人类在处理大问题时，之所以会提出具有普遍性的自然对象和子目标，难道不是因为这对解决复杂且重要的问题非常有用吗？从理论上讲，相比于仅仅提出与思考该问题相关的自然抽象，这难道不是解决黎曼猜想的一种更简单的方法吗？

第二个问题，从经验来看，这是否也是我们如今观察到 AI 在解决问题时取得进展的方式？当 AI 提出单位距离猜想的那个反例时，你可以直接阅读它的思维链。对我来说它是无法理解的，因为我对数学一无所知，但对其他数学家来说，它似乎是可理解的。它利用已知的数学概念，并证明了它们之间的关系，而且全部是用自然语言表达的。结果，它加速了我们对这个对象与该猜想之间联系的理解。

从经验来看，这真的是一件我们应该担心的事情吗？

Grant Sanderson

我认为这取决于（解题的）性质……如果我们将解决黎曼猜想的三种可能方式进行拆解……今年另一个重大突破是解决了一个编号为 1196 的 Erdős 问题，关于被称为“本原集”的东西。它具有这种从看似不同的领域引入想法的特征。一旦你把这个基本想法展示给一位数学家……你会说：“如果我们尝试马尔可夫链过程，自下而上地用概率论来证明这个东西，而不是自上而下，并使用冯·曼戈尔特函数（von Mangoldt function），会怎么样？”

如果你对懂行的人说这些，他们就知道该怎么继续往下做。你拥有这个非常微小的想法，它结合了一个领域的专业知识和另一个领域的专业知识，就像在它们之间画了一道小小的闪电。这些将会是非常容易被人类解析的，因为你所要做的仅仅是展示这些联系的起点和终点。

如果它的性质是“造山”，你就必须投入多得多的时间去理解那座被建造出来的新山，因为它是一条新的线索，而不仅仅是它们之间的一道闪电。而如果这种进展的本质只是纯粹的蛮力——一条没有任何新理论的超长推理链——那么你就会产生对整个消化过程的担忧。因此，我认为没有一个明确的答案。这取决于最终的解决方案会是什么样子。

在“造山”这一方面，那实际上会是非常有趣的现象。它是否默认像我们看待伟大数学家的新理论那样，是非常容易让人类理解的？还是说，它是一座外星的、不同种类的山，以至于我们必须重新处理我们所接触的抽象概念？

这里最接近的例子是对 abc 猜想的尝试性证明。我们也许不该深入探讨那个问题，但它可能并不是一个正确的解答。基本上，这是日本一位在其他方面享有盛誉的数学家提出的一整套全新的思维方式。数学家们花了很长时间才解析出他在说什么，但它给人一种外星数学的感觉，属于理论构建，而不仅仅是一条长长的推理链。他将其称为宇宙际几何（inter-universal geometry）。

最大的担忧会是 AI 做了这件事，然后就像 abc conjecture 那样，人们花了好几年时间攀登这座山峰，结果却发现，“该死。这根本就不对。”如果结果证明它是错的，但它看起来又像是对的。即使它是对的，去攀登一座新山峰也需要付出大量的努力。

Dwarkesh Patel

如果我们最终陷入了那种境地，David Bessis 曾写过一篇非常棒的博客文章，叫作《定理经济的衰落》。他谈到，正如你所说，在历史上，数学就是提出这些定义和问题，然后证明关于它们的定理。证明定理这部分包揽了所有功劳，但它其实是寄生在提出定义这部分工作之上的。

从历史上看，这在功劳分配方面一直不是问题，因为如果你提出了一个定义，你可能也会是那个提出定理的人。但现在的情况是，如果最有价值的工作是提出深刻的见解，而 AI 自动化了后半部分的工作……

想象这样一个场景：AI 针对世界上的一堆重要猜想提出了类似 Abel 那样的直接论证，然后我们就拥有了这些证明。现在，这取决于人类或未来的 AI 去进行整合。再次声明，我完全不具备对这种论证的具体层面的理解，但我确信，如果你能接触到它，它一定会让你更容易思考其中的原理。是否存在某种更深层次的方式，能让我们理解为什么这个证明行得通，从而让我们更容易想出群论背后的思想？

Grant Sanderson

我认为这会有巨大的帮助。在尝试发现新数学的过程中，绝大多数时候都是在犯错。你试图解决一个问题，这感觉并不像是在不断朝着正确的方向攀登高峰。大多数时候，这感觉就像是一场随机的醉汉漫步，你在做某件事，然后发现自己错了，并且不断地在意识到这一点。如果至少你知道，尝试消化你手头的东西最终会通向一个正确的解，那就会感觉像是在进步，仅仅是因为你知道它通向一个解。

在最近的数学史上，有很多“触及但未掌握”的例子，即事物在很早以前就被证明了，但直到很久以后才被理解。我最喜欢的论文开篇之一——这甚至不是一篇研究论文，更像是一篇阐述性文章——出自一位名叫 Timothy Chow 的数学家之手，他当时正试图理解一个被称为“力迫”的概念。有一个叫做连续统假设的问题，它大致上是在问：自然数有一种无限的大小，实数也有一种无限的大小。在这两者之间还有其他东西吗？

答案是既肯定又否定。这取决于你的公理。它超出了我们通常的公理系统的范围，这是一个有趣的答案。但是描述它的方法真的很难理解。就是这个叫做力迫的东西。在这篇论文的开头，他写道：大家都知道未解决的研究问题是什么概念。我想提出一个未解决的阐述性问题的概念。是的，我们已经证明了它，但我们并不真正知道它为什么是对的。

然后他针对那个阐释性问题提出了一个部分解决方案。你可以想象为什么我喜欢这种表述，因为这就是我毕生的事业。我不做数学研究。我完全致力于寻找理解事物的最清晰方式，哪怕它已经被证明。证明和解释是有区别的，我想你正好点出了这种区分的重要性。

Dwarkesh Patel

是的。那将是主要的动力。或者说，激励机制必须改变，不仅是在数学领域，在其他科学领域也是如此，要从证明关于世界的事实，转变为将证明整合为问题或更高层次的见解。

我们之前吃午饭时讨论过你最近关于设计以及设计如何帮助我们理解事物的一场演讲。推演到极致的话，一个概念化的想法和想法本身之间真的有区别吗？如果你想想狭义相对论、时空图和 Minkowski 时空，这是一种我们用来说明为什么会有长度收缩和时间膨胀的方式。但这就是现实……所以，在某种意义上，阐述似乎就成了解释本身。

Grant Sanderson

这里面有几个有趣的地方。一点是，那些提出真正新颖见解的人，与那些能够非常清晰地传达这些见解的人之间，似乎存在很强的相关性。你可能会觉得情况恰恰相反，因为大学生的体验往往是，教他们的专家并不一定是那个主题最好的讲解者，因为他们深陷于自己的专业知识之中。但至少在某些情况下，似乎那些真正想出非常新颖东西的人——比如 Einstein 或者 Claude Shannon 等人——你去读他们的论文，会发现它们非常清晰易懂。

你不会觉得这只是写给专家看的，必须拿着开山刀在里面披荆斩棘。他们是非常优秀的阐述者。Feynman 也有这个特点，他是一位非常出色的阐述者。也许大脑中那个能在研究层面上想出正确新思维方式的区域，同样也具备出色解释的诀窍。

我认为这与 AI 息息相关。我以前认为 AI 会成为这些自动定理证明器，但数学家的角色将转向我的工作，也就是去解释这些事物。现在我怀疑，实际上它们在这方面也会做得非常好，可能在解释和提炼方面比大多数人类都要强。因此，从事物发展的本质趋势来看，消化和解释发生了什么，可能并不是最后留给数学家的工作。我们可以讨论一些可能并非如此的情况，但很可能，那个能想出绝佳新点子来解决新问题的机制，同样也擅长解释它。这就是我的观念发生改变的地方。

Dwarkesh Patel

你认为你最后会做的事情是什么？不仅是你，还包括人类数学界最终会做什么？

Grant Sanderson

我可能到死都会在做和现在差不多的事情。

Dwarkesh Patel

如果末日论者是对的，也许原因也是一样的。

Grant Sanderson

是的。你为一个人生火，他只能暖和一晚。但你把一个人点燃，他余生都会觉得温暖。所以这就是我面对 AI 时的处境。

解释者或老师的部分职责是为人们好奇的事物理清思路，这是一方面。但另一部分职责则更偏向于建立关系，提供动力并发挥筛选引导的作用。我曾听到过一种关于数学家最终归宿的有趣观点：与其他任何事物相比，他们实际上更像是艺术博物馆的策展人。

AI 解决了问题，艺术作品也就随之诞生了。它们甚至知道如何出色地进行解释。但你仍然会希望有人能帮你在这个近乎无限的空间里导航，告诉你哪些想法值得去了解。即使从某种意义上说 AI 在这方面做得更好，我认为我们依然会更倾向于选择与我们建立了联系的人类，因为我们产生兴趣和动力的方式本质上是一种社会现象。

如果你要构建某种特定的技术，情况可能会有所不同。但收听这个播客的听众，首先是因为信任你的筛选，才会觉得某个话题很有趣。他们来到这里，并不是因为早就想好要理解你下一个话题的内容。他们信任的是作为策展人的你。

因此，我的角色，或者说其他数学家的角色，可能实际上只会微妙地向“筛选值得探索的想法”这一策展方向转变。这现在占据了我大量的工作。我觉得人们通常认为制作视频的大部分时间都花在了视觉呈现上。确实如此，这并非一蹴而就。但实际上，很多精力都花在了决定最初到底什么内容值得讲、什么内容值得呈现上。

我想要参与到其中，而且我认为我和特定人群之间存在着一种信任关系，他们会好奇我选择提出什么观点，即使 AI 在这方面做得更好。这和人类音乐家始终能占有一席之地的原因是一样的：即使某个模型输出的 MP3 文件在客观音质上更好，人类音乐家背后故事的社会功能依然不可替代。这就是我看到的我的工作未来的发展趋势。

Dwarkesh Patel

我想回到之前的一个问题。正如 AI 已经跨越了这道门槛——这个能够将现有想法联系起来，从而做出新发现或证明/证伪某些事物的重要基准——我们会问：“好吧，那么下一步是什么？”

Grant Sanderson

顺便说一下，在这个问题上还有很多工作要做。仅仅因为已经闪过几道闪电……我认为在接下来的几年里，在真正的跨界连接方面，将会迎来一个蓬勃发展的未来。

Dwarkesh Patel

没错。所以往大了说，你甚至可以认为——我不知道这是否准确，但有可能——许多最伟大的突破在某种程度上都是如此。比如广义相对论，其实就是把黎曼几何和狭义相对论联系在了一起。因此，随着 AI 在这种连接能力上越来越强，也许许多重大突破在本质上并没有什么不同。我不知道你对这个问题有什么看法。

Grant Sanderson

很多讨论都集中在解决问题和数学的本质上，比如去逐个解决 Erdős 问题之类的。但我敢说，甚至连大多数数学家都不会把自己的工作特点描述为专门瞄准下一个待解决的问题。你了解 Langlands 纲领吗？

Dwarkesh Patel

不了解。

Grant Sanderson

与其说它是数学的一个领域，不如说它是一种研究理念。费马大定理就是一个很好的缩影。你原本有这两个看似毫不相干的事物，而找到它们之间的联系最终促成了问题的解决。

Langlands 是一位数学家。他有一封著名的信件，在信中基本上阐明了可能还存在许多类似联系的推测。他甚至对这些联系的本质进行了更具体的描述，以至于你可以想象出一幅巨大的地图，这里有山谷，那里有山峰，还有那边的一片平原。许多数学家会将其工作描述为试图理解这幅地图上脉络的一部分。

这方面的进展，甚至都不是“我们知道这个特定的问题能通过那种联系来解决”。更多的是，一次又一次地出现这样的情况：重大的难题因为找到了联系而被攻克，以至于这几乎是在抢先寻找联系。这其实非常有趣。任何时候你遇到一位数学家，问问他们其工作性质是更接近于 Langlands program，还是针对某一个特定的问题。你会得到截然不同的两类回答。

AI 成为超级连接器的可能性，让人感觉它可能成为这一探索过程中的放大工具。不过，这很难衡量。这直接切中了我们之前讨论的问题：你如何设定一个标准来评判“是的，你成功了”？如果是攻克了一个具体问题，你有一种明确的方式来宣布，“是的，你做到了”。你可以写出新闻标题。作为一家 AI 公司，你可以发起公关宣传说，“我们做到了。”

相反，如果觉得那是应该建立的正确联系，你就可以围绕它写出定理。这就是该领域论文的本质所在。但我认为，这将需要更多的“human in the loop”来评判“我们想要建立的是哪种联系？”这就是我对未来五年内这些模型带来大多数有效进展的猜测。它实际上是在充实那张联系的版图，如果你是多个领域的专家，你就能勾勒出这些联系。正如你所指出的，我们之前居然没有实现这一点，这有点令人惊讶。

我很想知道在技术层面上是什么促成了这种突破。一方面，你可以在脑海中构想出一种解释，说明为什么你可能精通所有这些事物，却没有建立那些联系。当推理方法是这种自回归的思维链现象时……仔细想想，自回归实际上是一种非常奇怪的内容生成方式。

你是一个聪明人。想象一下我把你关在一个盒子里，你与世界互动的唯一方式就是收到一张纸条，然后有人问：“你能预测接下来会出现什么吗？”你预测了接下来的内容，然后你的记忆就被清除了。接着你又收到另一张纸条。想象一下这个过程重复了很多次，最后在另一端输出了什么。他们告诉你：“看看你写的这篇文章。”你可能会看着它说：“这太糟糕了。这根本不是我会写的文章。”这种反复进行预测的过程，与你作为作家去构思和推敲文章的思考方式截然不同。

特别是，可能发生的情况是，你成为了上下文的奴隶。你可能在回答某个特定领域的问题，因此你会利用所有相关的上下文。但是，真正能产生实质性内容的联系，本质上是一种极不可能发生的联系。你可以做任何你想做的 RL（强化学习）以在某些方面变得更好，但既然这些联系中的绝大多数都不是那里可预测的下一个 token，那么究竟是什么在专门增加这些不太可能发生的联系的权重并提供激励呢？

所以，可能的情况是，你把这种智能锁在了那个盒子里，但这是一种与它互动的奇怪方式。我好奇的是：通过质疑生成 token 的前提，你是否获得过一些成果？我认为这不会像调整温度（temperature）那么简单，但你是否能采取一些方法，利用现有的智能水平，找到合适的方式来激发那些能够解锁我们所见过的这类事物的联系？或者，你是否只是需要再多一点智能，使得在预测层面上，它能够预测出自己应该向另一个领域投射那道闪电？

Dwarkesh Patel

我认为，从数据的角度去推理，比从架构甚至损失函数的角度去推理更有成效。我们有处理文本的扩散模型（diffusion models），它们生成的东西在性质上并没有完全不同。只是它们还没有被深入探索过。我认为更相关的问题是：无论你拥有什么架构或损失函数，它们激励你生成的数据究竟是什么？确实看起来它们正在变得越来越好。

先别管数学。我们确实有过几个这类情况的例子，但如果你只看它们作为自主智能体（autonomous agents）为什么会变得更好……它们处于这样一个环境中：它们以自回归的方式生成这样的步骤：“让我们退后一步，对整个代码库（codebase）进行搜索”，然后“让我们退后一步，评估我的错误”，而这就是行之有效的方法。

我假设在科学或数学进步的过程中发生的情况是，你遇到了类似前沿数学的问题。数学家们专门设计了它们，因为它们需要将两个不同的领域联系起来。我猜想有各种巧妙、部分合成的方法来制造越来越难的、需要这类联系的问题——例如，通过消除假设但仍然要求 AI 得出答案——那么最终损失函数是什么就真的不重要了。这实际上关乎，你能否想出一个激励这种能力的环境？

Grant Sanderson

感觉你应该能够做到。我当然无法说出解锁这一切的正确方法，但这确实会让人相当惊讶。你不觉得吗，如果在未来三年内没有出现更多那样的“闪电”，难道不会令人惊讶吗？

Dwarkesh Patel

我认为这是一个值得思考的重要问题。我们经常思考单个系统有多聪明。而我们没有思考过，AI 拥有的优势更多是源于它们的其他事实属性。因此在这种情况下，关于它们的关键事实是，我们可以直接将它们并行化并任意扩展。无论它们具有何种能力水平，这都不再是数学史上那种仅仅建立了几个联系，然后就在决斗中死去的特立独行的天才了。

将这种能力基准线普遍应用于该能力水平所能解决的所有问题上。这是数字大脑天生具备的众多优势之一，而我们对此思考得还不够。其他优势包括它们可以合并所有的知识——或者至少未来会出现允许这样做的技术——而且你可以生成知识水平完全相同的副本。这种并行化是一个相当重要的特性。

我对你的预测很好奇。即使它们不如人类数学家聪明，但出于公关原因，AI 公司正在这方面砸入数十亿美元，这意味着数量本身就能带来质的飞跃。

Grant Sanderson

这方向似乎是对的。如果我们拿 Montgomery 和 Dyson 在 IAS 的那次对话来看，那次对话表明了 Riemann hypothesis（黎曼猜想）——或者说 Riemann zeta-function zeros（黎曼 zeta 函数零点）——与 random matrices 之间存在某种联系，这感觉就像是你可以尝试去自动化的那种事情。你拥有代表所有这些领域专业知识的 agents。我们都知道，一个研究机构比个人更聪明。

让人们集中在同一个地理位置的原因，是你希望那些偶然的思想碰撞能够发生。那么在 agents 之间设计这种交流会是什么样的呢？这很有趣，因为你指出可以汇集所有的知识，但我真的在想，其中的一个优势是否在于你可以反其道而行之。

有时当 AI 失败时，是因为它陷入了糟糕的思维链，而且很难让它从中走出来。所以你会说：“我就重新开始吧。”人类也是一样。有时你开始以某种特定的方式思考问题，而你真正需要做的只是退一步。有很多这样的故事，人们花了很长时间试图证明某件事，然后在某个时刻他们说：“等等，如果我试图证明它是不可能的，或者证明相反的结论会怎样？”

回溯你自己的上下文，并以全新的头脑重新面对它……你可以想象将这一过程系统化，或者故意给多个不同的 agents 提供不同的上下文片段，然后在那里进行对比和比较。我们无法对自己的上下文进行同等程度的操控。

在这个 AI 与数学系列中，我们要做的第一集将是关于他们解决 IMO 问题的那一次。我想重点关注一道他们做错的具体 IMO 问题，这也是很多非常聪明的学生做错的题目。Terry Tao 也做错了。人们对这道题非常恼火，他们称之为钓鱼题。我几乎不想剧透，因为我想围绕这一点来构思这一集：在不知不觉中引导某人，直到揭晓它其实有一个非常简单的解法。你真的能对学生在解答这道题时的感受产生强烈的共鸣。

基本上，基于它是国际数学奥林匹克问题这一背景，有一种非常优雅的方法，让你觉得它似乎就是正解。这种解法的特质非常诱人，但很难证明它是最好的。原因在于它并不是。反而有一种几乎无脑的解法才是最好的。

这件事与整个 AI 故事的关联在于，对于人类而言，要回答这个问题，需要跳出你所处的语境。跳出身处 IMO（国际数学奥林匹克）的语境。跳出你被训练来解决这些竞赛数学题的固有模式。如果你仅仅把它当作一个我抛给路人的脑筋急转弯，他们可能反而会答得很好。

在其他领域的人类研究中，有时你也需要同样的做法，即能够重置你的思维，以完全不同的方式切入问题。在数字大脑所拥有的所有优势中，这可能正是其中之一：一种更系统化的思维重置方法。派生出两个 agent，一个试图证明它，另一个试图证伪它，一个用这种方式尝试，另一个用那种方式尝试。它们被刻意赋予了不同的上下文。

我很好奇，如果三年后我们再进行这样的对话，那些占据头条的重大成果中，究竟有多少会具备这种特征：即基本上抹去先前的上下文，去尝试一系列不同的方法，而不是仅仅整合一堆不同 agent 的结果。

Dwarkesh Patel

这非常有趣，因为人们对 AI 的一个普遍担忧是这种“熵坍塌”（entropy collapse），即因为它们的训练方式相似，所以思考方式也千篇一律。这就是为什么它们不擅长写作的原因。它们会陷入相同的路径，并具有相似的说话模式等等。

但也许 AI 拥有的关键优势在于你可以系统地……听起来单位距离问题（unit distance problem）的猜想之所以花了这么长时间才被证伪，原因之一似乎是人们想当然地认为该猜想是正确的，因此他们大多在想办法证明它。也许 AI 将具备的关键优势之一，就是通过系统地既尝试证伪、又尝试证明任何给定陈述来增加熵，或者能够系统地为不同的 agent 赋予不同的偏见。

在人类科学史上，一件重要的事情似乎是，爱因斯坦的驱动力很大程度上来源于一种偏见，即事物在不同的参考系中应该看起来是一样的。他还有许多其他类似的偏见，但那一个对他的思维成型至关重要。你可以系统地考察一系列启发式方法（heuristics），看看哪些方法在特定问题上能产生实际成效。

Grant Sanderson

所以你的建议是，即使在自回归（autoregression）层面存在这种不可避免的坍塌，也要在 prompt（提示词）层面系统地增加熵？爱因斯坦会是一个有趣的例子，因为他抱有“事物应该是相对的”这种偏见。但他也有一种“上帝不掷骰子”的偏见。你必须确保不会一不小心让你所有的 LLM 都变成爱因斯坦，否则你可能会阻碍量子力学的发展。

Dwarkesh Patel

这恰恰说明，对于科学研究而言，并不存在唯一正确的启发式方法。你只需要多个具备各自启发式方法的独立研究项目。

Grant Sanderson

这感觉就像是传统软件。只要你能够以某种方式将其描述出来。你拥有可以放大这种熵的传统软件。如果你能够为你想要提示的不同思维方式建立一个清晰的本体论（ontology），你就可以去探索那个完整的本体论，然后每个具体的思维方式就会自行其是地运行了。

关于如何准确描述不同的方法，这里存在一个设计层面的问题。简单的一端是：你是想证明它还是证伪它？困难的一端则是：为了证明这一点，你可以采取哪些策略，并确保在探索这些策略时具备足够的广度。

Dwarkesh Patel

显然，AI 在数学领域的进展比其他任何领域都要快得多，人们指出该领域的可验证性是造成这一现象的关键原因。我认为这只是两个重要原因之一，而人们往往忽略了另一个。我不在实验室内部工作，所以不知道实际情况究竟如何。这完全是个外行的理论。

顺带提一个与“为什么 AI 在数学领域进展神速”相关的问题：为什么它在操作计算机方面却如此缓慢？计算机是非常容易验证的。我的 Etsy 包裹要送到了吗？我的日程预订好了吗？这些都是极其容易验证的调查项。操作计算机所缺乏的，是“可死磕性”（grindability，即可反复试错的特性）。

因为网站都有机器人检测机制——而且进行并行 rollout（推演）需要消耗海量算力——所以在 Amazon 上对同一个结账流程进行一千次并行 rollout 是极其困难的。你会被 Andy Jassy 直接封号。

Grant Sanderson

亲自封你。他会亲手按下那个标着“封杀 Dwarkesh”的红色叉号按钮。

Dwarkesh Patel

完全正确。你可以尝试为每一个网站搭建克隆环境，但这非常耗费人力，而且会拖慢进度。目前，在深度学习中，你需要进行如此多次并行 rollout 才能掌握一项技能，原因在于我们还没有解决样本效率（sample efficiency）的问题。

Grant Sanderson

就像 Karpathy 说的那样，像用吸管吸取监督信号一样费劲？

Dwarkesh Patel

没错。当然，人们正在研究许多不同的技术，但从根本上说，我们训练 AI 的方式存在一个巨大的限制。在编写代码时，你可以将代码库中某个特定阶段的进度容器化（containerize），然后启动数百个并行容器，并下达指令：“尝试实现这个功能”，而且这个过程是完全确定性的。正因为它是确定性的，你才能解决信用分配问题（credit assignment problem），因为你知道无论是什么导致了这次 rollout 成功、那次 rollout 失败，其中的 diff（代码差异）就是起作用的关键。如果你的初始条件各不相同，那么这个信用分配问题就会变得极其难以解决。

现实世界中的大多数事物都很难以同样的方式进行容器化。编程和数学是这个规律的例外。但是，如果你想摸索出如何打造一家成功的新企业，或者如何在市场中交易一天并赚到钱，由于你必须与现实世界互动，而且情况每天都在变化，这就意味着你无法不断地重演、死磕、或者去“刷”（farming）模拟器。

当然，数学是个例外，我觉得这是推动该领域以及编程领域进步的重要驱动力。这不仅仅关乎可验证性，它还必须具备可死磕性（grindable）。

人们指出的 AI 能够快速进步的第三个原因，是他们高度关注 Lean 和形式化。我再说一遍，我真的完全不知道实验室内部的具体情况。但我感觉，对于当前 AI 的进展水平来说，Lean 并没有那么重要。为什么 AI 能够证伪关于单位距离问题的猜想？他们公开了思维链（chain of thought），或者至少是思维链的重写版本。里面根本没有用到 Lean。我认为，Lean 所提供的基于过程的监督（即确保每一步都是正确的），似乎不如拥有一个“可验证且可反复试错的最终结果”来得重要。

Grant Sanderson

关于“死磕能力更为重要”的观点非常有趣。你可能会天真地认为，Lean 为数学提供了某种独特的东西，因为你能借此看出它能否证明某个定理。传统的软件也能告诉你“是”或“否”，而你完全可以把它当作你的 VR（验证奖励）。能够印证你观点的是最初的那些尝试。我再拿 IMO（国际数学奥林匹克）来举例。一开始，DeepMind 基本上就是这么做的，所有内容都在 Lean 里，但到了第二年，就全都变成了自然语言。所以正如你所说，它并不是非有不可的。

我确实认为形式化领域还有一个尚未被发掘的优势：目前，你仍然需要人类来审查针对单位距离猜想的那个反例，并给出“看起来没问题”的结论。这在某种程度上限制了事物可以被无限探索的程度。想想 AlphaGo 或 AlphaZero 这样的系统，它们在属于自己的宇宙里不断下围棋并进行自我探索，完全有可能脱离人类需要审查的范畴，但它们依然拥有这种自动化的可验证奖励。这意味着你不仅可以在其上进行 RL（强化学习），而且基本上根本不需要去人工检查，你只需要疯狂堆算力，让它们自己去探索围棋的宇宙就行了。

有意思的是——也许这最终不会实现，而且它到底能不能产出什么成果也还无定论——你可以设想借助 Lean 拥有一个基本能无限运行的程序，不断尝试去扩展 Mathlib。Mathlib 是一个 GitHub 仓库，基本上就是用代码写成的数学大全。虽然目前离涵盖所有数学还差得很远，但他们的目标就是让它包罗万象。它用代码写成，你可以直接问“这个证明对吗？”。编写这些证明极其耗费人力，目前围绕它已经形成了一个完整的子社区。

但你可以想象拥有这样一个 AI，你对它说：“去尝试扩展 Mathlib 吧。”也许它会生成一个分支，这样就不会把垃圾内容混入原库，因为人们对于想要收录的内容是有一定品味的。所以你就拥有了一个纯粹的 AI 版 Mathlib 分支，然后它就开始运转并且永不停歇。它不需要任何人去检查，它自己就能一直跑下去。它可能会提出自己的猜想，可能会提出自己的理论和不同的定义。也许其中很多都没用，但它就是能不断生长出一棵无限延伸的知识树。

这是数学所独有的、其他任何领域都不具备的独特之处：你可以按下启动键，疯狂投入算力，然后转头离开十年，等回来再问：“你发现了什么？”它肯定会给你拿出点东西。接下来的问题就是：这东西有用吗？你要怎么去甄别？能做到这一点本身就是一件很有趣的事。如果这样做没能产出某种有趣的数学洞见，那反倒会非常出人意料。

在这个故事中，Lean 的重要性体现在两个不同的方面。第一个方面就是你可以完全放手，甚至不需要去检查，它自己就能取得进展。在下围棋上你可以这么做，但我觉得在自然语言数学上是行不通的。

Dwarkesh Patel

这太有意思了。你看过 Karpathy 关于自动化研究的想法吗？他写了一个用于基础 LLM 训练的 Python 文件，然后建了一个仓库，让 LLM 智能体去尝试修改这个文件，如果修改后加快了跑通速度，那么这个修改就会被保留下来。

Eric Jang 曾来解释过 AlphaGo 的工作原理，他在尝试构建一个极强大的围棋机器人时也做过类似的事情。他有一些有趣的观察。AI 非常擅长执行实验并沿着这条路探索下去，但在遇到死胡同时停下来以及进行高度并行化操作方面表现很差。不管怎样，这种情况在未来很可能会改变。

思考它在极限情况下的样子非常有趣。从根本上说，这就是人类数学研究体系的样子。它是一个以有趣且实用的方式扩展的图书馆。这样一来，你没有任何基于结果的监督。你没有试图去激励某个特定结果，但你有一个过程。你知道这些步骤是正确的，你只是不知道它是否在朝着一个有趣的方向发展。

Grant Sanderson

如果你要这么做，你肯定不想完全脱轨，在逻辑空间中进行随机游走。你可能需要某种监督模型，试图提供关于其是否有用的启发式判断。你知道人们正在研究这个。这属于那种“五年后”才会实现的事情，我很期待未来的我们能探讨这个话题。

也许这毫无结果，但 Terry Tao 曾谈到过一个研究项目，试图对可能的代数空间进行穷举搜索。你可以想象将不同的公理应用到代数系统中。当我们提出群论时，有一套特定的公理系统，除非你知道其背后的动机，否则它看起来就像是任意的规则。如果你把所有的公理都试一遍会怎样？它们当中能产生有用的东西吗？其中绝大多数在某种意义上只是垃圾。它们最终都会坍缩，得不出任何有趣的结果。

但偶尔，会出现这样一座小岛，它是一种完全不同的公理系统，至少从所能推导出的定理数量来看，它似乎非常丰富。这正是你能想象的自动证明器的拿手好戏：探索那个空间，看看其中哪一个能修成正果。也许这些岛屿中，真的有一个能让你为其追溯性地赋予动机，说出它试图揭示的正是这种结构。

就像你可以想象在看待群的公理时，最初并不知道它与对称性有关，但后来追溯性地意识到它与研究对称性息息相关。你可以想象具有这种意味的结果，只不过它探索的不仅仅是可能的代数系统，而是任何类型公理的所有可能逻辑推论。

Dwarkesh Patel

关于在没有 Lean 的情况下能否提供基于过程的监督这一点，DeepSeek 有他们的 DeepSeek Math 模型。他们发布了一篇关于如何训练该模型的论文，内容非常有趣。

自然语言证明的问题在于，你不知道它是否正确。他们有一个验证器，而这个验证器由一个元验证器进行训练，以确保对于他们训练该模型在《解题的艺术》中去解决的所有问题，验证器都能提供良好的反馈。这很奏效。有趣的是，在目前已发表的文献中，带有某种元验证机制的自然语言验证似乎是行得通的。

在我们正在使用的已发布产品中，这似乎也行得通。如果你看看现在的编程智能体，它们在编写整洁的代码和重构代码方面正变得越来越出色。我确信有一些基于流程的“LLM-as-a-judge”（大模型作为裁判）系统在提供审美判断，并提问：“这种函数的写法简洁吗？是否存在相同模块形式的重复代码？” 这套逻辑应该也适用于数学，对吧？

Grant Sanderson

相比其他领域，数学似乎更可行，哪怕你只在自然语言环境下操作，你也能信任验证器。你我之前讨论过为什么它们不擅长写作。但它们似乎是优秀的裁判。如果给学生写的两篇文章让它们看，它们能说出哪一篇更准确、更有见地。那么，为什么不能直接用一个验证器来判断：“这是一篇好文章吗？”

也许最根本的败笔在于，即使它们擅长区分B级和A级文章，它们其实并不擅长区分A级文章和真正让你愿意读、能在 Substack 上吸引追随者且有见地的作品。它们最终反而更喜欢缺乏洞见的文章。

在数学领域，仅仅是判断证明正确与否这一步，就非常适合由自动化验证器来完成，哪怕是在自然语言环境下也是如此。你可能依然能取得大量进展。我依然喜欢 Lean 带来的逻辑树，因为你真的可以天马行空。它不受限于事物以往的表达方式。大家都在谈论 AlphaGo 的第 37 手。是什么促使了它跳出先前的启发式规则？在这种探索中与世界其他部分保持一定程度的脱节，似乎卓有成效，这可以作为自然语言数学研究的一个补充方向。

Lean 的另一层意义在于，假设你拥有纯自然语言的 RL 环境和纯自然语言的证明集合。人们说：“去吧，AI 数学家们，”然后它们每天生成十篇论文。只要这其中存在任何错误率……Alex Kontorovich 谈论过这个问题。这对数学家来说会变得无法忍受。每次你看到其中一篇论文时，你都不知道它是否值得你花时间。即使 100 篇中有 99 篇是正确的，我也不知道是否值得花我的时间，因为找出那个错误在哪真的是一项劳动密集型工作。把所有时间都花在一篇垃圾论文上，实在太让人沮丧了。

如果有一个东西能给你打个绿色的勾，告诉你：“哪怕这理解起来会很复杂，哪怕这会是个苦差事，但至少你知道它是正确的，”其他任何领域都会梦寐以求。数学领域就有这个。如果模型还能提取它们的自然语言证明并将其形式化，那意义将非常巨大。每个领域都会渴望拥有这样的东西。所以我认为你是对的，即作为推动数学整体进展的 VR 环境，Lean 的重要性可能被高估了。但我绝对不会把它排除在历史进程之外。

Dwarkesh Patel

我也很喜欢将 Mathlib 的这种扩展，作为我们人类文明很快将要发生之事的隐喻。几千年来，人类建立起了这个知识和理解的总集，而我们现在拥有的一切都被提炼到了这些模型中。在某个时刻，模型将任意地扩展这些知识。

Dwarkesh Patel

顺便说一下，关于写作方面，我有一个理论来解释为什么写作领域的进展不如其他领域。其中一个原因就像你说的，它们不仅不擅长评判 A 和 B 哪个更好，而且完全被 B* 带偏了。B* 就是这样一篇烂文章，但它表面上却迎合了 A 应该具备的所有花哨指标。这种奖励作弊现象彻底失控了。

但另一个重要的点是，写作不像代码和数学那样具有模块化特性。你可以用许多不同的方式编写一个函数，而它们实现的功能是一样的。当然，你希望代码是整洁的，但归根结底，只要它能运行就可以了。数学中的引理也是如此。你可以得到一个与其生成过程完全不同的最终产物。代码是生成某种最终产物的工具，你要的是一个能正常运作的最终产物。

然而在写作中，最终产物直接就是 AI 生成的内容本身。每一个段落、句子和词语都很重要，因为那就是实质内容。它不是由写作过程分离出来的某种独立的东西。它不能像代码那样，即使写得很烂，也依然能产生你想要的结果。

Grant Sanderson

但你刚才也指出了，我们在让智能体编写代码方面已经取得了很大的进步，不仅能写出可用的代码，还能写出整洁的代码。那么，为什么让代码从仅仅能用提升到整洁且可合并的 PR 的这种进步，没有同样带来更清晰的写作呢？

Dwarkesh Patel

说得好。不过，难道真的没有进步吗？我同意，在很多方面它们确实是很糟糕的写手。但在我阅读的大量文本中，我发现最好还是把它们复制粘贴到 LLM 里，然后说：“给我解释一下这个。” LLM 给出的解释会比人类写的更好。有趣的是，我们嘴上说着它们是多么糟糕的写手，但我的显示性偏好却是让 LLM 来向我解释。

即使我在通话中与一位人类专家实时交流，如果这是他们独有的、并没有被编码在模型数据分布中的知识，我当然希望他们来向我解释。但是，如果为了理解这一点，我需要先去理解一个更基础的概念，我倒希望社会礼仪能允许我直接说：“我们暂停一下。我先去问问 LLM 这个基础概念是怎么回事，然后我们再回来听你讲你那独到的知识。”

Grant Sanderson

那是提炼，是一种解释。如果我要评估你作为一篇文章作者的水平——如果我给你一本书去读，然后想要一份读书报告——我也许会认为 LLM 能给我一份更好的读书报告。但是，当人们说它写得糟糕时，他们真正想表达的是，什么是写作？写作不仅仅是对已有观点的提炼。它也不仅仅是如何清晰地解释事物，因为它们已经是优秀的解释者了。写作的核心在于洞察力。

这就是为什么自回归在生成内容时是一种非常奇怪的方式。当你在写作时，你多少会明白，为了让文章出色，你必须加入一些不可预测的元素。这不仅仅是在脑海中调高 temperature。而是要确切地知道，在什么时候做出出人意料的举动才是最合适的，这才是更具洞察力的地方。退一步讲，即使它更擅长解释已有的事物，但一开始生成那本你想要去提炼的书的东西，又是什么呢？

这并不是由 LLM 生成的，也不是你仅仅刚好需要它。而是某位作者，通过对世界上各种思想的广泛探索，决定了哪些方面是有趣的，以及用什么方式呈现能构成一个连贯且动机充分的叙事。他们以某种方式将这一切整合在一起。如果他们是优秀的作者，你可能更倾向于去读他们的原著，而不是读它的浓缩版。

尽管如此，究竟是什么让它在最初值得去探索，甚至值得去上传呢？当人们说 LLM 不擅长写作时，指的正是这一面。那是那种不可预测的元素，是刻意选择某种新颖事物的倾向，而这与事物通常的生产方式截然相反。

Dwarkesh Patel

说得好。我认为它们也非常不擅长构建非常好的人类心智模型，而这在写作中是一项非常重要的技能。Andy Matuschak 和另一位我现在忘了名字的合作者，做了一份有趣的报告，他们在报告中试图教 LLM 写出优秀的间隔重复提示。我非常喜欢这个研究，因为尽管它看起来像是一项完全随机的技能……这就像是，人们都在谈论一年内的递归自我改进，但我们却不能让这些东西写出好的抽认卡。这到底是怎么回事？

他们尝试了许多不同类型的技术，而且他们是资深专家。他们尝试了对开源模型进行强化学习（RL）。他们尝试了各种方法，包括思维链以及发给最优秀的闭源模型的大型提示词。在我看来，关键的制约因素在于，写好一张卡片在于能预测某人三个月后的心智状态。他们会怎样把问题联系起来？在那个时刻他们脑海中会浮现什么样的答案？这种引导方式是否能激发出你真正想从要制作卡片的段落中获取的细节？

我认为写作与此类似。如果你在写东西，它之所以是一个耗时且令人筋疲力尽的过程，原因在于对于每一个词或每一个句子，你都必须思考：此时此刻我读者的脑海中正在发生什么？

即使我调整措辞，把句末的短语放到开头，让这成为你在阅读句子其余部分之前脑海中浮现的第一幅画面……也许自回归在这方面并不擅长。这也许更偏向于扩散模型那种考虑全局而非逐句生成的特性。但我也认为这需要大量的心智化推理，而这些模型奇怪地在这方面挣扎。

Grant Sanderson

这是个有趣的问题。它们在这方面表现吃力，这奇怪吗？我可能说得不太准确。你懂的，有时候你会引用曾经读过的研究，但也许那项研究根本不存在？有一个非常令人难忘的研究。假设你想测试人们的情商（EQ）。你向人们展示一张带有某人面部表情的抽认卡，并让人尝试描述那种情绪。网上有一些非常好的测试，会给一张脸，然后列出四种可能的情绪供选择。要准确描述出完全正确的情绪出奇地困难，但你会感觉到确实存在一个正确答案。如果你和生活中的人尝试这个，你会注意到那些社交敏锐的人做得非常好，而那些更偏向左脑思维的人则表现不佳。这是一种你可以进行的测试。

我隐约记得有这样一个实验，他们找了一些刚打过 Botox 的人，对他们进行了前测和后测。在后测中，他们解读他人表情的能力明显变差了。这感觉很不可思议。

Dwarkesh Patel

等等，他们打了 Botox？

Grant Sanderson

是指参加测试的人。你先做一次测试，然后去打 Botox，脸部完全僵硬，这时你理解所见情绪的能力就变差了。背后的想法是，理解你所看到的情绪，部分在于你自己也要做出这种表情。在面部层面上，你会牵动面部肌肉。你看到某种表情，就会去模仿，然后在某种非常潜意识的层面上意识到：“哦，对，那是焦虑。”

所以从这个意义上说，如果模型真的缺乏“心智理论”（theory of mind），当然，它们无所不知，因为它们读过了所有人写的东西。但在真正能够设身处地为你着想的层面上——就像我的面部肌肉模仿你的面部肌肉，从而帮助我理解你的感受一样——它们做不到也就不足为奇了。它们没有面部肌肉。它们的大脑运作方式完全不同。这就像外星人试图产生共情一样。它们怎么可能有心智理论呢？那必须是一种非常高级的涌现特征才对。

而我们却可以直接将其代入我们自己的大脑。我们有现成的硬件来承载它。从这个角度来看，（模型缺乏心智理论）也就不那么令人意外了。

Dwarkesh Patel

关于使用 LLM 来学习，你有什么建议吗？正如我刚才所说，对于很多众所周知的概念，我觉得它们非常有帮助。但通常，就在继续聊几句之后，当我试图深入了解某些东西时，它们自己都一头雾水，反而把我给绕晕了。它们没有用正确的方式进行解释。我知道，如果和懂行的人交流，可能三分钟就能解除我的困惑。

我们会越来越想用这些东西来学习。人们经常谈论教育和知识表征之类的话题。你有没有发现什么方法，能让我们更高效地利用它们来理解概念？

Grant Sanderson

我很想听听你对这个问题的看法。我先说说我的。甚至在 LLM 出现之前，我就觉得关于学习有一个很有价值的见解：认识到“跟谁学”比“学什么”更重要。

我对任何大学生在选择课程时的建议是：少关注一点你现有的兴趣，因为它们现在看来多少有些随意；多关注一点授课老师是否是一位优秀的教育者，以及你是否与他能产生共鸣。在选择读什么书时，作者是谁可能比你之前的兴趣更重要。如果你曾经喜欢过某本书，那就去读该作者写的其他书，而不是去读关于该主题的另一本书。

说到这里，我要提到 LLM 了。试图从 Wikipedia 页面上学习某些知识，与去《Stanford Encyclopedia of Philosophy》上学习哲学主题，或者去《Princeton Companion to Mathematics》中学习数学主题，在感觉上是不同的。区别在于，后者的文章是特意由某个人精心撰写的，作者会试图真正围绕该主题构建出一套动机。

维基百科追求的是一种局部最优，即每一句话都必须准确无误。而在优秀的讲解中，你对过程中的绝对正确并没有那么苛求。你可以刻意构建一些略有偏差的内容，并在后续过程中加以纠正，但这种做法在众包环境中会被直接删改。目前来看，LLM 的讲解给我的感觉非常像维基百科，也就是说，非常惊艳。想象一下没有维基百科的时代，要花多长时间才能找到并弄清所有这些信息。

不过话说回来，维基百科页面上最有用的部分是什么？往往就是底部的参考文献。你会查看关键的参考文献，点开它们去阅读。有时这能为你提供一个更好的全局视角。所以我经常喜欢直接问 LLM：“我应该读谁的书？”或许我甚至会提出一些关于我想如何学习的具体要求。

有一次我在尝试学习半导体之类的东西时，就被它给忽悠了。我觉得这是一个非常依赖视觉呈现的主题，但所有的资料都是纯文本的。于是我问：“有没有视觉呈现比较好的视频，能解释你刚才提到的这些概念？”Claude 回答说：“有，这里有几个。”排在最前面的一条大概是：“这是 3Blue1Brown 的一个视频。”我当时就想：“我敢保证绝对没有。”

那确实是个真实的视频，也是个真实的链接，只不过它把别人的视频张冠李戴了。这倒也挺好。我直接点进去看视频来学习，体验比继续在那里提问要好得多。从这个意义上说，我基本上只是把它当成一个超级加强版的 Google，用来精准定位正确的人类编写的资源。你呢？你经常和这些模型打交道。你觉得最好的使用方式是什么？

Dwarkesh Patel

我觉得你说到点子上了。我最高效的学习经历，往往是建立在某个人类创作者产出的成果之上的——无论是一篇文章、一本书，还是一个视频——它能够以正确的方式组织相关概念。它逐步建立起你的动机，让你明白为什么下一个概念与你将遇到的下一个问题息息相关，然后再下一个概念，再下一个概念。然后，你再利用 LLM 围绕书本勾勒出的这条知识分支进行一些修剪和补充。我最近其实正在读——我觉得好像是你推荐的——Steven Strogatz 关于……的教科书。

Grant Sanderson

是讲混沌理论的那本吗？《非线性动力学与混沌》（Nonlinear Dynamics and Chaos）？我超喜欢那本书。

Dwarkesh Patel

对，我正在读，感觉太幸福了。那感觉就像是你的视频变成了书本。非常有趣。我的学习方式是，在屏幕的三分之一处放他的大学讲座视频，另外三分之一放教科书对应的章节，最后三分之一开着一个 LLM。我甚至在想，如果我回到大学时代，现场听这门课，我肯定会一头雾水。那些学生一定非常聪明，因为我需要不断地暂停、读教科书、和 LLM 交流，然后再继续播放。但是，因为有他精心梳理的正确概念理解顺序，以及合适的题目来激发理解的动力……

还有件事是 LLM 极不擅长的。一个真正优秀的人类导师在回答问题时能做到的是，他会告诉你：“实际上，你思考这个主题的方式不太对。你真正应该问的问题，以及组织这些概念的正确方式，应该是 X。”而 LLM 确实做不到这一点。

Grant Sanderson

这有点太讨好人了。这归根结底是一种谄媚行为，总是满口“哦，这是个多么深刻的问题”。你需要剥离掉这些。这一点说得很好，而且我认为它稍微触及了“心智理论”，即认识到提出特定类型的问题，能反映出学生的认知结构与解释者的认知结构并不相同。

有时候人们在这方面会做得过火。拿一位真正优秀的老师来说，假设你在一个初中数学课堂上。如果学生提出的问题表明他们的思考方式与众不同，在当时要真正认真对待并询问：“等一下，按这种思路你能得出正确答案吗？”然后再说：“不要那样做，我们这样做。”这其实是非常困难的。真正优秀的老师能够巧妙地利用学生富有创造力的思维方式，并将其融入到教学中。LLM 并没有这样做。它们没有重新梳理你的问题，而是有点自顾自地跑偏了。

至少感觉这里存在三个层次。LLM 处于一个层次，优秀的解释者处于另一个层次，而 A+ 级别的解释者能够巧妙转化你的思维方式，并告诉你“这在那个地方能派上用场”。也许这会经历一个完整的循环，五年之后，LLM 也会做到这一点，而且会做得更好。

Dwarkesh Patel

我相信总有学生给你发邮件问这个问题：“我对研究数学很好奇。我对这门学科充满热情，但看到 AI 取得的所有这些进步，我不知道自己是否还适合以此为职业。”你对他们的建议是什么？这不仅与数学界的人有关，也适用于任何注意到自己所在的领域正因 AI 而获得生产力提升的人。编程与这种情况就非常接近。你对他们有什么建议？

Grant Sanderson

我不会太相信自己给出的任何建议。我会先这么打个预防针。但即使在 AI 出现之前，对于你将要从事的任何工作，真正去理解一些东西似乎也非常重要……如果我们谈论的是一份工作——而不是像旧时代的“绅士科学家”那样仅仅是为了参与数学界什么的——你应该明白资金是从哪里来的，你实际上在创造什么价值，以及这两者之间的联系。大家对这点的思考少得令人惊讶，尤其是学生。

他们身处的环境让他们可能仅仅因为自己数学一直很好，就想从事数学工作。他们一生都在因为正确地穿过下一个“关卡”而获得奖励。当他们认为自己想成为数学家时，是因为他们觉得这是继续参与这种模式的一种方式。他们想的是“哪里能让人做这种工作？”，而不是在思考“我在为他人创造什么价值？这在多大程度上是我能获得薪水的原因？”

不同情况其实大不相同。在某些情况下，是一位极具声望的数学家，他们在大学任职能带来一定的品牌价值，这就是大学想要聘请他们的原因。在某些情况下，由于我们对基础科学有着造福公众的信念，因此会发放 NSF 拨款。围绕这一点建立了一套机构，以及一整套官僚体系，作为我们所认为的公共利益的代理，期间还要经过一整套繁琐的流程，以确保让他们准确预测你的研究进展符合拨款的初衷。有时则纯粹是为了教学。人们喜欢把孩子送到有专家授课的机构。作为专家，你提供了品牌价值；作为老师，你提供了直接价值。

无论 AI 是否在证明定理，也无论我们谈论的是 2016 年还是 2026 年，这都是那些想着“我想成为一名数学家”的学生考虑得太少的事情。我认为这值得思考。就我而言，我当时并没有刻意去想这个问题，而是偶然踏入了一条可以将数学探索作为娱乐变现的职业道路。我误打误撞走进了这一行，我也非常感激自己这么做了，但这确实是个意外。这不是刻意为之。如果我当初能批判性地思考一下，本可以避免依赖这种机缘巧合，而是更有计划地去实现它。

回到你的问题——如果我们实现了几乎自动化的定理证明，而且假设它们也是非常优秀的讲解者，甚至能让你获得人类的理解力——我认为数学家所承担的许多社会角色实际上并没有太大改变。作为公众，我们依然觉得基础科学是有价值的，而且我们信任数学家的判断，由他们决定时间花在哪里最有价值。这种声望来源于该群体内部。是由其他成员评价某个成果非常出色，而不是拨款审批人真的懂代数数论才明白这是一项好成果。

关于什么是有价值的贡献，将会形成一种内在文化。也许它会从定理证明转向出色的定义编写。也许就像博物馆策展人的概念。但只要整个社会依然重视基础科学这一前提，这个群体就会继续存在。如果我们身处 AI 带来的富足世界，某种意义上那个方向可能会有更多的资金支持。

至于讲师身份给机构带来的声望，我其实认为教学是后 AGI 时代最稳定的工作之一，因为它高度依赖人际关系。如果父母拥有大量财富，他们会愿意把钱花在这里：提供良好教学和良好教育的机构。这远远超出了单纯的知识讲解。即使 LLM 是很好的讲解者，教师所做的事情依然具有很强的社交、辅导和导师指导性质，因此这可能是未来五十年中最稳定的职业之一。

鉴于许多数学家的角色与此有重叠，作为即将踏入该领域的学生，你可以向这个方向倾斜。我确实认为，应该有更多的学生去思考并认同成为一名纯粹的数学教育者的想法，以及这能为下一代带来的价值。

我要再次声明，我不觉得自己有资格说：“来，未来的年轻数学家们，这就是你们应该如何思考未来的方式”，因为我是个 YouTuber。我并不身处你们想要进入的学术体制内，所以我只是作为一个旁观者在发表看法。但这听起来像是一条普遍适用的好建议：搞清楚资金从哪里来，以及你在这个环节中处于什么位置。如果你能去思考这些问题，实际上就已经比其他初出茅庐的准数学家们领先好几步了。

Dwarkesh Patel

事实上，想象一下这样一个疯狂的世界：在五到十年内，AI 不仅能想出千禧年大奖难题的解决方案，还能首先提出全新的问题、全新的数学领域和数学对象等等。正是在那样的世界里，首先，会有极大的丰饶。其次，AI 的思维在数学领域走得最远，它们的视野将远远超越我们的认知边界。届时会出现巨大的需求：“AI 看到了什么？你能给我们解释一下吗？”

在那样一个世界里，如果还有任何工作存在的话，提炼 AI 所学到的知识必定是其中之一。

Grant Sanderson

此外，有趣的是，所有这些讨论的前提都是它是“无用”的。我们并不是在谈论所做数学研究的实际应用。只要它具有任何经济效用，你就可以想象，那些能够理解它并决定其应用方向的人，作为“策展人”做出判断，将这个庞然大物般的新数学引向有用的方向，实际上会产生大得多的经济价值。突然之间，这就成了一个比以前更具杠杆效应的举措。

Dwarkesh Patel

我能就此问问你的看法吗？显然，关于 AI 做数学的一个问题不仅是它能不能做，而且它做得好不好？或者说它到底有没有用？

你刚才描述了，在群论中，我们试图弄清楚不同类型函数根的随机事实，而现在它在许多不同领域都有实用的应用。你有没有某种直觉，如果我们真的进入了一个人类数学领域被加速 10 倍或 100 倍的时代，并且发生了一些疯狂的事情，还是说我们会被其他领域卡住进度？

Grant Sanderson

我认为有些领域很可能会（被卡住进度）。各个领域的情况会非常不均衡。随着代数数论的进步，感觉不太可能因此解锁什么实际的东西。但我记得曾和一位主要研究动力学和求解偏微分方程（PDE）的数学家交谈过。他提到他的团队有一些想法。让我看看总结得对不对。波音公司制造飞机的方式通常是先造出来，进行大量测试，然后必须根据这些测试结果将其拆解并重新组装。他的团队基本上有一些见解，知道如何在仿真中做更多的工作，这样就不必去拆解和重建了。这大概为波音节省了数十亿美元，然后他们就开始资助那个团队了。

这显然更贴近实际应用，因为 PDEs 本身就是如此。你可以想象，该领域的进步确实能解锁一些新事物。我不知道是否会是那种阶梯式的飞跃，但也许它更多体现在让引擎设计变得更流畅，或者直接得出正确的机翼形状，而不需要运行大量复杂的 CFD。也许你能加快 CFD 模拟的速度，因为某些纯数学的洞见使其变得更高效。我敢打赌，你会在那里看到许多出色的渐进式改进。

数学领域的巨大突破似乎不太可能立刻转化为同样巨大的经济突破，比如你解决了 Navier-Stokes 问题，然后就解锁了模拟更多事物的能力。但你很可能会在那些边缘地带，看到纯数学洞见向其他领域的一些有意义的渗透。有大量的人在从事 AI 工程、物理工程和材料科学等领域的工作。你可以想象，他们处于有利的位置，能够审视 AI 在数学上的洞见，并判断它们在某种程度上是否具有相关性。

这又属于那种我不会坐在这里信誓旦旦地预测一定会发生的事情。但是，如果在接下来的五年里，没有出现可以直接归功于 AI 数学进步的、具有经济价值的改进，那会有点令人失望，也会有点令人惊讶。如果仅仅是解决了一堆 Erdős 问题，而它们当中没有任何一个能真正直接触及物理世界的数学应用，那确实会让人感到失望。

Dwarkesh Patel

回到你关于数学史的论点，即数学的很多历史都是在不断积累这些成堆的概念和联系。有时这些概念堆会相互交汇，或者你在其他某个地方发现了它的应用。退一步讲，你至少已经积累了这庞大的一堆知识。

然后，随着奇点期间社会取得更广泛的进步，当我们进入奇点的工业化阶段时，你就会拥有所有这些不同的想法，希望它们能在世界的其他领域发挥作用。

Grant Sanderson

正如我所说，当前正在发生的事情中一个有趣的方面是，它促使人们退后一步思考：“什么是数学？”也许其中一个令人尴尬的结论会是揭示出它已经变得完全没有用处了。人们所提出的那类问题已经与物理世界中的应用严重脱节，这也是数学家们必须接受的现实之一。

每个人都会看着然后说：“等一下，你们不是应该……如果那里有了 10 倍的进步，为什么我们在这里看不到呢？”然后数学家们就会显得很尴尬，“呃。”每次我们写那些经费申请时都会说：“相信我们，椭圆曲线方面的进展将有助于密码学，”但这反而凸显了一个事实，即也许它并没有什么帮助。所以这是一种可能性。

Dwarkesh Patel

Grant，这非常有趣。非常感谢你的参与。

Grant Sanderson

当然。我的荣幸。

需要完整排版与评论请前往来源站点阅读。