返回 2026-04-25
🤖 AI / ML

DeepSeek V4:接近前沿水平,价格仅为十分之一DeepSeek V4 - almost on the frontier, a fraction of the price

simonwillison.net·2026-04-24

中国AI实验室DeepSeek发布了备受期待的V4系列模型中的两个预览版——DeepSeek-V4-Pro和DeepSeek-V4-Flash。这两个模型均支持100万token上下文长度,并采用混合专家(Mixture of Experts)架构。与上一代V3.2相比,V4在性能和成本效率上均有显著提升,Pro版本在复杂推理任务中表现接近顶级模型,而Flash版本则以更低延迟实现高吞吐量。DeepSeek表示其技术路线在保持高性能的同时大幅降低了训练与部署成本。

Simon Willison

2026年4月24日

中国AI实验室DeepSeek上一款模型是去年12月发布的V3.2(以及V3.2 Speciale),而他们刚刚推出了备受期待的V4系列的首批预览模型——DeepSeek-V4-Pro和DeepSeek-V4-Flash。

两款模型均支持百万级token上下文长度的专家混合架构(Mixture of Experts)。Pro版本总参数量为1.6万亿,激活参数为490亿;Flash版本总参数量为2840亿,激活参数为130亿。它们采用标准的MIT许可证。

我认为这使得DeepSeek-V4-Pro成为目前最大的开源权重模型。它比Kimi K2.6(1.1万亿)和GLM-5.1(7540亿)更大,并且其规模超过DeepSeek V3.2(6850亿)的两倍。

Pro模型在Hugging Face上大小为865GB,Flash为160GB。我希望能让一个轻度量化的Flash版本在我的128GB内存的M5 MacBook Pro上运行。如果我能从磁盘流式加载所需的活跃专家模块,Pro模型或许也能在其上运行。

目前我通过OpenRouter试用这些模型,使用的是llm-openrouter插件:

llm install llm-openrouter
llm openrouter refresh
llm -m openrouter/deepseek/deepseek-v4-pro 'Generate an SVG of a pelican riding a bicycle'

这是由DeepSeek-V4-Flash生成的企鹅(pelican):

这是由DeepSeek-V4-Pro生成的企鹅:

作为对比,可以参考我在去年12月、8月和2025年3月分别从DeepSeek V3.2、V3.1和V3-0324获得的企鹅图像。

所以这些企鹅图像质量相当不错,但真正值得注意的是成本——DeepSeek V4是一个非常非常便宜的模型。

这是DeepSeek的定价页面。他们对Flash收取每百万输入token 0.14美元、每百万输出token 0.28美元的费用;对Pro则收取每百万输入token 1.74美元、每百万输出token 3.48美元。

这里是一张与Gemini、OpenAI和Anthropic的前沿模型价格对比表:

DeepSeek-V4-Flash是所有小型模型中最便宜的,甚至比OpenAI的GPT-5.4 Nano还要便宜。DeepSeek-V4-Pro则是所有大型前沿模型中价格最低的。

DeepSeek论文中的一段说明有助于解释为何他们能如此低价提供这些模型——他们在本次发布中高度专注于效率优化,尤其是在处理长上下文提示方面:

在100万token的上下文场景中,即使DeepSeek-V4-Pro拥有更多激活参数,其单token FLOPs(以等效FP8 FLOPs计算)仅为DeepSeek-V3.2的27%,KV缓存大小也仅为其10%。此外,激活参数更少的DeepSeek-V4-Flash进一步提升了效率:在100万token上下文设定下,其单token FLOPs仅为DeepSeek-V3.2的10%,KV缓存大小更是仅占7%。

DeepSeek在其论文中自报告的基准测试显示,其Pro模型与其他前沿模型相比具有竞争力,但附带如下说明:

通过扩展推理标记,DeepSeek-V4-Pro-Max在标准推理基准测试中表现优于GPT-5.2和Gemini-3.0-Pro。然而,其性能略低于GPT-5.4和Gemini-3.1-Pro,表明其发展轨迹大约落后于当前最先进的前沿模型3到6个月。

我正在关注huggingface.co/unsloth/models,因为我预计Unsloth团队很快就会推出一系列量化版本。到时候看看Flash模型在我自己的机器上运行得如何,将会非常有趣。

需要完整排版与评论请前往来源站点阅读。