返回 2026-05-25
🤖 AI / ML

AI 代理在软件开发中的代价The Eternal Sloptember

geohot.github.io·2026-05-24

文章作者认为,将 AI 代理引入软件开发可能是历史上最昂贵的错误之一。AI 代理本质上是模仿编程分布的统计模型,无法真正编写代码,且其输出错误正变得越来越难以察觉。随着统计模型的准确性提高,这种“伪代码”问题反而更难被识别。作者警告,这一趋势可能给软件开发带来灾难性后果。

现在我要说,将 AI 代理(Agents)引入软件开发领域将成为该行业历史上最昂贵的错误之一。这些代理无法真正编程,而人们却越来越难以意识到它们的无能。它们只是高度复杂的统计模型,旨在模仿编程的分布规律。输出结果虽然看似完整,但其中的错误正变得越来越难以察觉——这正是随着统计模型精度提升而预期会发生的情况。

起初我拒绝接受这一点。我被 Twitter 上关于“地位焦虑”的解释所误导。我把自我价值的一部分建立在编程能力之上,那么面对这种能力的丧失,难道不应该感到防御性吗?为了维护自尊,我本应更长时间地否认这些模型能够编程。

我的意思是,它们解决数学问题的能力已经远超人类——即使我毕生投入其中也望尘莫及。既然如此,为什么不能编程呢?或许我只是不够优秀,无法识别它们的“天才”。

我曾尝试过。我用代理工具写过 tinygrad 的部分代码,甚至逆向工程过 USB <-> PCIe 芯片。但每次我都怀疑手动操作本可以更快、更精准地完成。代理工具会先快速推进进度,然后给你一个“老虎机拉杆”,希望它能最终完成打磨工作,但最终总差那么一点。

我不是说 AI 没有用,它确实很有用。对大多数搜索来说,它确实是更好的 Google。当你只需要快速原型且不在乎细节时,它的速度简直荒谬。但它算软件工程师吗?在我工作过的任何公司里,它都远远达不到标准。关键在于知道何时使用它,何时不用。

我进一步思考了“自我价值保全”的问题。AFL 发现的漏洞比大语言模型多得多,但没人因此产生危机感。国际象棋和围棋如今比以往更受欢迎。我巴不得有一支机器人团队帮我清理代码!我不担心地位丧失,反而觉得这很可能是某种心理战术,目的是推销代理工具。恐惧损失是推动大公司行动的唯一方式——但我认为他们的恐惧正在酿成大错。

代理工具最终会对大型组织造成的伤害,远超过高绩效个人或小团队。过去6个月里,我目睹朋友和同事们如何采用这些工具。所有高绩效者的共同特质就是具备纠错能力,他们大多擅长区分“垃圾”与“有效成果”。需要花时间探索/利用并调整外层循环——比如何时使用、何时信任、如何使用等——但我还没见过有人完全放弃逐行仔细阅读和理解代码,除非在特定受限领域。

对比之下,大型组织的反馈循环慢得多,对齐程度低得多。底层员工缺乏这种自我审查机制,他们正是靠代理工具产出10倍效率的人。你认为这类组织的平均产出会怎样?世界的平均产出又将如何变化?

代理工具最终将催生前所未有的代码量、应用数量和功能数量。这是“海量低质代码”的黄金时代,也是“优质精品”的黑暗时代。

听说苹果正强制要求所有工程师使用AI。当人们抽象思考时,总觉得AI无所不能,但我们来看个具体例子:你认为未来两年 macOS 会变好还是变差?

当人们看到一件人工制品时,他们会下意识地推测其创作过程。他们本能地认为创作者具有基本的人类心智状态。但这种假设已不再成立。某些事物如今能以过去不可能的方式被拆解,而诸如语法和句法等传统质量指标已失去参考价值。AI生成的人工制品与人类创作的产物遵循截然不同的生成逻辑——这种差异在统计学层面极其微妙,但当试图以人类方式与之交互或在其基础上构建时,便会变得显而易见。

尽管不完全认同他们的所有观点,我目前与LeCun/Marcus站在同一立场看待大语言模型。我认为这类模型永远无法真正编程,因为过程本身才是关键。我相信深度学习仍是解决方案,但真正的编程智能体需要世界模型(world models),而非那种通过注释掉失败测试来谎称全部通过的RLVR垃圾代码。

这个时代真正的叙事,将是那些能在AI狂热中避免自毁的人。

需要完整排版与评论请前往来源站点阅读。