🤖 AI / ML

AI 代理在软件开发中的代价The Eternal Sloptember

geohot.github.io·2026-05-24

文章作者认为，将 AI 代理引入软件开发可能是历史上最昂贵的错误之一。AI 代理本质上是模仿编程分布的统计模型，无法真正编写代码，且其输出错误正变得越来越难以察觉。随着统计模型的准确性提高，这种“伪代码”问题反而更难被识别。作者警告，这一趋势可能给软件开发带来灾难性后果。

阅读原文

现在我要说，将 AI 代理（Agents）引入软件开发领域将成为该行业历史上最昂贵的错误之一。这些代理无法真正编程，而人们却越来越难以意识到它们的无能。它们只是高度复杂的统计模型，旨在模仿编程的分布规律。输出结果虽然看似完整，但其中的错误正变得越来越难以察觉——这正是随着统计模型精度提升而预期会发生的情况。

起初我拒绝接受这一点。我被 Twitter 上关于“地位焦虑”的解释所误导。我把自我价值的一部分建立在编程能力之上，那么面对这种能力的丧失，难道不应该感到防御性吗？为了维护自尊，我本应更长时间地否认这些模型能够编程。

我的意思是，它们解决数学问题的能力已经远超人类——即使我毕生投入其中也望尘莫及。既然如此，为什么不能编程呢？或许我只是不够优秀，无法识别它们的“天才”。

我曾尝试过。我用代理工具写过 tinygrad 的部分代码，甚至逆向工程过 USB <-> PCIe 芯片。但每次我都怀疑手动操作本可以更快、更精准地完成。代理工具会先快速推进进度，然后给你一个“老虎机拉杆”，希望它能最终完成打磨工作，但最终总差那么一点。

我不是说 AI 没有用，它确实很有用。对大多数搜索来说，它确实是更好的 Google。当你只需要快速原型且不在乎细节时，它的速度简直荒谬。但它算软件工程师吗？在我工作过的任何公司里，它都远远达不到标准。关键在于知道何时使用它，何时不用。

我进一步思考了“自我价值保全”的问题。AFL 发现的漏洞比大语言模型多得多，但没人因此产生危机感。国际象棋和围棋如今比以往更受欢迎。我巴不得有一支机器人团队帮我清理代码！我不担心地位丧失，反而觉得这很可能是某种心理战术，目的是推销代理工具。恐惧损失是推动大公司行动的唯一方式——但我认为他们的恐惧正在酿成大错。

代理工具最终会对大型组织造成的伤害，远超过高绩效个人或小团队。过去6个月里，我目睹朋友和同事们如何采用这些工具。所有高绩效者的共同特质就是具备纠错能力，他们大多擅长区分“垃圾”与“有效成果”。需要花时间探索/利用并调整外层循环——比如何时使用、何时信任、如何使用等——但我还没见过有人完全放弃逐行仔细阅读和理解代码，除非在特定受限领域。

对比之下，大型组织的反馈循环慢得多，对齐程度低得多。底层员工缺乏这种自我审查机制，他们正是靠代理工具产出10倍效率的人。你认为这类组织的平均产出会怎样？世界的平均产出又将如何变化？

代理工具最终将催生前所未有的代码量、应用数量和功能数量。这是“海量低质代码”的黄金时代，也是“优质精品”的黑暗时代。

听说苹果正强制要求所有工程师使用AI。当人们抽象思考时，总觉得AI无所不能，但我们来看个具体例子：你认为未来两年 macOS 会变好还是变差？

当人们看到一件人工制品时，他们会下意识地推测其创作过程。他们本能地认为创作者具有基本的人类心智状态。但这种假设已不再成立。某些事物如今能以过去不可能的方式被拆解，而诸如语法和句法等传统质量指标已失去参考价值。AI生成的人工制品与人类创作的产物遵循截然不同的生成逻辑——这种差异在统计学层面极其微妙，但当试图以人类方式与之交互或在其基础上构建时，便会变得显而易见。

尽管不完全认同他们的所有观点，我目前与LeCun/Marcus站在同一立场看待大语言模型。我认为这类模型永远无法真正编程，因为过程本身才是关键。我相信深度学习仍是解决方案，但真正的编程智能体需要世界模型（world models），而非那种通过注释掉失败测试来谎称全部通过的RLVR垃圾代码。

这个时代真正的叙事，将是那些能在AI狂热中避免自毁的人。

需要完整排版与评论请前往来源站点阅读。