返回 2026-06-16
🤖 AI / ML

AI GPU 的实际寿命可能远超三年AI GPUs probably live longer than three years

seangoedecke.com·2026-06-15

业界常以“推理 GPU 满载寿命最多三年”的传闻来佐证当前 AI 基础设施投资的不可持续性,但这其实是一个严重的认知误区。文章通过分析指出,在真实的数据中心运行环境下,AI GPU 的物理寿命通常比传闻中的三年极限要长得多。这意味着硬件折旧周期被低估,导致当前的算力成本核算模型存在偏差。结论是更长的硬件寿命为 AI 模型的持续迭代和商业闭环提供了远比悲观主义者预期更宽裕的时间窗口。

认为当前 AI 应用不可持续的人,通常依赖于这样一种说法,即在满载情况下,推理 GPU“最多只能用三年”1。这种观点认为,一旦 AI 泡沫的资金耗尽,当前的基础设施将迅速被淘汰,而市场上将没有足够的资金来购买一大批全新的 GPU。因此,推理成本将迅速变得过于高昂,使得当前的 AI 产品从财务角度来看毫无意义。

这种“最多只能用三年”的说法从何而来?它合理吗?

追溯该说法的来源

Tom’s Hardware 的原始文章引用了来自 Tech Fund(一位匿名的原 PM 及科技投资者)的推文,该推文引用了 Google 一位匿名的“GenAI 首席架构师”的话:“如果保持高利用率,也就是持续一到两年的高利用率,我认为其寿命最多只有三年。”

这张截图看起来像是出自某次采访。什么采访?我翻看了 Tech Fund 的 Twitter 动态,回溯到 2024 年 10 月,看到了一堆格式类似的截图,其中一些被标注为来自 Tegus。显然,Tegus 是一家采用特定商业模式的公司,他们会联系内部人士(在此例中为 AI 公司员工),并支付给他们每小时数百美元的报酬,以换取对特定技术问题的解答。这本质上是一种游走在内幕交易边缘的零工:你听起来越有见地、越自信,Tegus 的分析师就越有可能在未来的采访中选中你。

我确信这条推文的消息源确实是一位 GenAI 首席架构师,因为 Tegus 在支付报酬前大概会要求提供一些证明。但也很明显,这里的激励机制促使他们表现得自信且权威,即使是对那些他们并不确定的问题也是如此。考虑到这一点,这句话本身读起来也有点令人生疑。我与足够多的首席工程师和架构师共事过,知道对他们在闲聊时给出的粗略估算要持保留态度。如果他们知道 Google 数据中心中 GPU 实际发生故障和报废的概率,他们难道不会直接说出那个数据吗?

寿命更长的证据

我们有一些指向相反结论的轶事证据。Google 曾公开声称,他们有运行了八年的 TPU(他们自研的 GPU)在“100% 利用率”下投入生产环境。Nvidia 生产 A100 GPU 的时间是 2020 到 2024 年,但在 2026 年 2 月,AWS 的 CEO 声称 AWS 从未淘汰过任何一台 A100 服务器(而且你现在依然可以轻松租用到 A100 用于 AI 任务)2。AI 对 GPU 的使用与加密货币挖矿不完全相同,但多年前的退役矿卡显然似乎仍然能正常工作。我还注意到 Hacker News 上有这样一条评论,有人声称他们在学术界使用的 GPU 集群已经运行了六年,故障率不到 20%。

那么硬数据呢?获取 AI GPU 寿命的具体数据很困难,因为现代 AI 数据中心仅仅存在了几年。但一个有趣的案例研究是近期的超级计算机集群,例如 Oak Ridge 的 Summit,它在 2018 年至 2024 年间运行着超过 2 万 7 千块 Nvidia V100 GPU;或者是它的前身,即 2012 年至 2019 年间运行的 Cray Titan 超级计算机。我找不到任何证据表明 Summit 不得不额外购买 2 万 7 千块 GPU 来替换旧显卡,而且 Titan 中 GPU 的故障情况已经被仔细研究过:

这些 GPU 机柜是垂直堆叠的,冷空气从底部泵入,这就解释了为什么机柜 0(在底部)的存活率高于机柜 2(在顶部)。我们来看看机柜 0,这样我们关注的就只是 GPU 的正常寿命,而不是散热不良的 GPU 的寿命。在三年时,超过 95% 的 GPU 存活了下来3。在六年时,节点 2 和 3(最靠近机柜底部的 GPU)的存活率仍然在 90% 以上,而最高位置的节点也超过了 60%。

较新的 Nvidia GPU 可能不如旧款可靠(它们的功耗确实更高),或者 AI 数据中心的散热能力不足,又或者 LLM 的使用方式比传统 GPU 数据中心运行的工作负载压力更大。但这至少提供了间接证据,表明 GPU 在负载下的存活时间可以远远超过三年。

经济寿命

由于 GPU 的经济寿命可能很短,这一讨论变得复杂起来。据说 B100 GPU 的功耗是 A100 的两倍,但能完成五倍的工作量。对于某些 AI 提供商来说,这可能意味着 A100 只有在被 B100 替换之前才值得运行(如果受限于电力瓶颈,你应该把电全部用在 B100 上,并淘汰过时的 A100)。这就是 Titan 超级计算机被 Summit 取代的原因:它本来可以继续运行,但把资金和维护精力投入到更新的硬件上会带来更多利润。

很明显,这并不支持“泡沫破裂时推理会变得更加昂贵”的论点。只要 A100 现在还能盈利,缺乏资金的 AI 提供商就可以继续利用它们提供有利可图的推理服务,即使对于那些有资金升级的人来说存在更高效的选择。

除此之外,GPU 仅占 AI 数据中心基础设施支出的一部分。如果你的 GPU 报废了,你不必去建一个全新的数据中心。大约 30-50% 的数据中心支出用于土地、电力、散热等。剩下的 50-70% 是整个服务器机架的成本,其中包含许多非 GPU 的组件。

结论

就像 AI 推理需要消耗大量水资源的说法一样,AI GPU 只能使用一两年的观点之所以流行,是因为它对 AI 怀疑论者来说是一个有用的论调,而不是因为它符合事实。这个说法源自一条匿名推文,该推文引用了一位神秘消息人士的话,而这位消息人士拿了数百美元来让自己听起来像是一位可靠的 AI 专家。AI 推理提供商的其他公开声明引用的寿命数据要高得多,而且超级计算机(大型 GPU 集群的传统典型)的统计数据也无法证实其最大寿命为三年这一说法。

在新 GPU 每十八个月推出一次且 GPU 提供商拥有充足资金进行升级的情况下,其经济寿命为三年可能是事实,但这并不能说明在 AI 寒冬中的推理经济学。如果资金变得极其稀缺,AI 数据中心很可能会继续盈利4运行它们的 B300(或者 H100 甚至 A100)长达六年或更久。

  • 当然,就像之前关于 AI 和水资源消耗的说法一样,“最多三年”往往会被引用为“1-2 年,在最佳条件下有些能达到 3 年”。 ↩
  • 当然,对于 CEO/CTO 的声明我们同样应该持保留态度(例如,他们可能囤积了大量未使用的 A100 并不断进行替换),但是(a)高管们通常不会对具体的技术事实公然撒谎,而且(b)考虑到他们的对立面只是推特上一段毫无出处的引语,所以比较的门槛也没那么高。
  • 那么主动更换 GPU 的情况呢?在“生存分析”部分,研究试图将这一因素纳入考量。不过我还没有深究其具体的操作方式。
  • 假设推理是盈利的,我相信这一点(前提是不去试图摊销训练成本)。
  • 如果您喜欢这篇文章,可以考虑订阅邮件以获取我的新文章更新,或者在 Hacker News 上分享。

    这是一篇相关文章的预览,该文章与本文拥有相同的标签。

    AI 泡沫破裂之后会怎样?在 19 世纪中叶,美国为铁路而疯狂。短短五年内就修建了超过三万英里的铁路。这在很大程度上是由普通投资者对铁路公司狂热的投资所资助的,当时铁路公司被视为一种安全且利润丰厚的押注。1873 年,泡沫破裂。成千上万的美国人损失了积蓄,大约三分之一的铁路公司破产。但铁路线并没有消失。它们被幸存下来的铁路公司低价买下,并在接下来的一百年里承载了大量的列车。继续阅读...

    需要完整排版与评论请前往来源站点阅读。