💡 观点 / 杂谈

AI 推理显然是盈利的AI inference is obviously profitable

seangoedecke.com·2026-06-26

针对业界关于 AI 推理成本过高、只能靠资本补贴的悲观论调，作者提出了反驳。文章指出，提供 AI 推理服务实际上是具有盈利能力的，驳斥了 LLM 在资金、算力上不可持续的观点。这一结论打破了当前对 AI 商业模式的普遍误解。

许多人声称，提供 AI 推理服务无利可图，因此必须依靠那些相信未来某个 AI 模型将主导世界经济的投资者所投入的巨额“傻钱”来补贴。当这些“傻钱”耗尽时，AI 产品也会随之消亡。按照这种观点，LLM（大型语言模型）天生就太昂贵了（无论是在金钱、电力还是水资源方面），无法应用于消费级产品。事实上，它们目前之所以能够投入使用，完全是因为将成本外部化了：金钱成本转嫁给了风险投资基金以及现在的散户 ETF 投资者，电力成本转嫁给了电力消费者，而水资源成本则转嫁给了建立数据中心的所在社区。

讨厌 AI 的理由有很多，但这绝对算不上一个。事实上，AI 推理显然是有利可图的。

算一笔账就能证明推理是赚钱的

前沿 AI 服务商报告称其推理业务的毛利率高达 70% 到 80%，但也许我们无法完全相信他们。让我们对实际成本做一些非常粗略的估算。

一块 Nvidia A100 在满载情况下的功耗为 400W。在实际应用中，即使是经过精心调优的推理服务器也不会一直处于满载状态，但这至少是一个上限。假设你正在运行一个稠密 70B 模型1，它可以轻松地（未量化）部署在四块 A100 上，每小时处理大约 200 万个 tokens。按照美国的工业电价计算，每小时大约花费 13 美分。假设（悲观地估计）散热成本与此相当。那么每输出 100 万个 tokens 的成本大约是 13 美分2。

让我们来分摊一下 GPU 的成本，因为这将是其中最昂贵的部分。一块 A100 的价格约为 2 万美元。如果每块 A100 的使用寿命约为五年3，你每年必须赚取 1.6 万美元的利润才能收回资本投资（约合每小时 1.80 美元）。在较低的利用率下，收回成本的时间会更长，但你的 GPU 使用寿命也会更长。无论哪种情况，你的整体推理成本大约为每 100 万个 tokens 1 美元。

GPT-5.4-mini 的收费是每 100 万个 tokens 4.50 美元，而更强大的 OpenAI 或 Anthropic 模型还要贵三到六倍。由于我们不知道 OpenAI 或 Anthropic 模型的具体参数规模，因此很难进行直接比较，但其声称的 70% 或 80% 的利润率是非常合理的。

开源 LLM 证明推理是有利可图的

如果你也信不过我的估算呢？让我们来看看开源权重中国 LLM 的定价。DeepSeek 声称 DeepSeek-R1 的推理利润率略高于 80%。由于他们对 R1 的 API 定价还不到 OpenAI 或 Anthropic 的一半4，这表明我上面对推理成本的估算可能偏高了。大规模的散热成本很可能低于电力成本，R1 的激活参数只有稠密 70B 模型的一半，现代 GPU 的效率也高于 A100，此外推理业务还存在显著的规模经济效应。

由于任何人都可以下载 DeepSeek 的模型，他们无法攫取高额利润率。其他推理服务商完全可以用同一个模型以更低的价格来抢夺市场。市场上 DeepSeek-V4-Pro 的推理成本大约为每 100 万个输出 tokens 87 美分，这可能已经非常接近提供该模型服务的实际成本了。

对于 AI 实验室来说，推理必须补贴训练

这一切并不意味着 OpenAI 或 Anthropic 已经实现盈利。这些公司正在进行巨额的资本投资，这些投资可能会也可能不会取得回报；同时，他们还在人才和算力上投入巨资，以训练全新的模型并留住用户。

他们正在做一些疯狂的事情，比如提供近乎无限推理的包月订阅模式，这几乎肯定是不盈利的。如果你在 Claude Code 中使用 API token 而不是你的 Anthropic 订阅，你得支付十倍的成本。但这并不意味着基于 API 的 Claude Code 不划算。一些人已经在使用 DeepSeek 的推理 API 进行智能体编程，因为一旦去掉巨大的利润空间，它比相对的包月订阅更便宜。

为什么 OpenAI 或 Anthropic 不降价？据说 OpenAI 考虑过这一点，但对于一家 AI 实验室来说，推理必须用来补贴训练成本。像 OpenAI 这样的公司必须利用现有模型的推理利润来为新模型的研发提供资金（至少是部分资金）。这就是为什么推理的利润率如此之高：AI 实验室正试图榨干每一分钱，以便在训练军备竞赛中生存下来。

然而，推理只需要为 AI 实验室补贴训练成本。如果你仅仅是一个推理提供商，你根本不需要进行任何训练。因此，即使 OpenAI 和 Anthropic 倒闭，谁抢到了他们前沿模型的权利，谁就能继续通过出售 Opus 和 GPT 推理服务获利5。AI 泡沫的破裂并不意味着推理业务的终结，因为 AI 推理显然是有利可图的。

昂贵的前沿模型可能是混合专家模型，而不是密集模型，这更难估算。不过，我认为一个 70B 的密集模型和一个有 70B 活跃参数的 MoE 模型在规模上算出来的数字基本是一样的（尽管 MoE 会需要更多的 GPU 显存，因此前期成本更高）。前沿模型的参数量在 70B 左右吗？AI 实验室之外没有人真正知道，但我猜测 70B 可能比 Haiku/mini 级别的模型要大。

我认为只估算输出 token 的成本是合理的，因为它们是提供推理服务中最昂贵的部分。输入 token 更便宜有两个原因：transformers 允许你并行预填充它们，而且对于大多数实际用例，它们可以被大量地缓存在 KV cache 中。

估计 GPU 的寿命为三年是很常见的（但也是错误的）。我在《AI GPUs probably live longer than three years》中写了很多关于这方面的内容。

再次强调，这只是一个猜测，因为我们不知道 OpenAI 或 Anthropic 的哪个模型在规模上与 R1 相当。

我确实在想，如果 Anthropic 倒闭，他们是否能够阻止其他人访问该模型。Anthropic 目前欠 Broadcom、Google 和一堆私募股权公司的钱。不顾 Dario 的抗议，他们会拿到 Mythos 和 Opus 的权重吗？

如果你喜欢这篇文章，可以考虑订阅关于我新文章的电子邮件更新，或者在 Hacker News 上分享它。

这是一篇与本文共享标签的相关文章的预览。

AI GPUs probably live longer than three years 那些认为当前 AI 的使用不可持续的人，通常依赖于这样一个说法：在满载情况下，推理 GPU 最多只能维持“三年”。这里的观点是，一旦 AI 泡沫资金耗尽，当前的基础设施将迅速被淘汰，并且将没有足够的闲散资金去购买一整套全新的 GPU。因此，推理成本将迅速变得过于昂贵，使得当前的 AI 产品在任何财务意义上都不再合理。继续阅读...

需要完整排版与评论请前往来源站点阅读。