🤖 AI / ML

Hy3 LLM为何在OpenRouter模型排名中大幅领先？The mysterious Hy3 LLM is topping OpenRouter Model Rankings by a large margin

minimaxir.com·2026-05-26

文章探讨了Hy3 LLM为何在OpenRouter模型排名中显著领先的问题。尽管未明确解释原因，但暗示Hy3可能在性能或效率方面有独特优势。排名结果引发了关于该模型技术细节的猜测和讨论。

OpenRouter 是一个通过单一 API 提供访问大多数大语言模型（LLM）的服务，随着新 LLM 发布节奏的加快，这一服务近期变得尤为有用。由于该公司在用户与 LLM API 之间扮演中介角色，OpenRouter 拥有关于用户如何与 LLM 交互的详细代表性数据，并将在 AI Model Rankings 页面公开这些数据——这本身已是实验室出于竞争原因通常保密数据的难得之举。最近我查看了 OpenRouter 排名时，发现了一些奇怪的现象。

检索日期：2026年5月25日。

如今有两个新模型在 token 使用量上比备受推崇的 Claude 高出超过50%？DeepSeek Flash V4 听说过：这是 DeepSeek 开源的模型，不仅速度快、成本低，而且能以极低费用性能媲美顶级 LLM 模型，因此其流行不足为奇。但 Hy3 preview 是什么鬼？我从未听过这个名称或相关讨论。搜索 Google 只返回了中国科技巨头腾讯关于 Hy3 开源发布的公告；Hugging Face 上的模型页面信息稀疏，且包含与其他中国开源模型相比不太有利的诚实基准测试结果。

腾讯 Hugging Face 仓库中 Hy3 的编程导向基准测试结果。

Hacker News 搜索“Hy3”仅返回一条无关提交，Reddit 讨论更多围绕权重开源展开。一个 Reddit 线程还提到 Hy3 自 5 月 6 日起通过 OpenRouter 免费开放；该免费端点已不可用，因此上述每周排名中 Hy3 的使用数据来自付费用户。

看来 Hy3 preview 在非代理式编码领域也颇受欢迎。

检索日期：2026年5月25日。

难道我遗漏了什么？经过非科学测试后，模型质量确实与其他标注的中国模型相当，远不及 Claude Opus 4.7 和 GPT 5.5 等模型。它并非被忽视的隐藏瑰宝，背后必然另有玄机。幸运的是，OpenRouter 的数据有助于缩小可能解释的范围，但查阅数据后我反而更困惑了。

Hy3 preview 通过 OpenRouter API 以每百万输入 tokens $0.066 的价格提供，确实低于当前排名第一的 DeepSeek V4 Flash（每百万输入 tokens $0.10）。考虑到 LLM 及编码代理成本急剧上涨，低成本模型胜出合乎逻辑——但这需以同等质量为前提，而事实似乎并非如此。

以下是 OpenRouter 模型页面上展示的 Hy3 preview 随时间推移的使用情况图表：

Hy3 preview 在 5 月 8 日前无使用数据，暗示该模型从免费 SKU 切换至付费 SKU 的时间节点。此后使用量保持稳定，本文显示的初始排名距离上线已过去数周，表明其增长至少是自然形成的（或需极高成本伪造），而非一次性异常值。值得注意的是，若计算此处提供的数值，LLM API 调用的输入-输出 token 比例现为整体 98% 输入、2% 输出。

在 OpenRouter AI 模型排名中，历史上曾因特定应用将默认切换至某个大语言模型（LLM）而产生流量激增，例如 2025 年 9 月 Kilo Code 免费提供 Grok Code Fast 1 时，其使用率一度飙升。但当前情况并非如此，因为应用仅占 Hy3 预览版活动的极小部分。

排名前 5 的应用仅占 Hy3 预览版全部活动量的不到 1%。

OpenRouter 的核心优势在于能自动将 API 请求路由至不同提供商：对于开源模型如 DeepSeek V4 Flash，OpenRouter 列出 13 个提供商，但 Hy3 预览版尽管采用开源权重，却仅有一家新加坡 SiliconFlow 作为提供商。OpenRouter 上 SiliconFlow 的使用量页面显示，其此前使用量相对较低……直到 Hy3 出现。

绿色区域对应免费 Hy3 使用量，蓝色区域对应付费 Hy3 使用量：OpenRouter 悬停鼠标未区分两者，我怀疑这是系统 bug。

有趣的是，数据可视化显示当 Hy3 预览版从免费转为付费后，使用量并未骤降——若用户认为免费版无价值，很可能在成本转嫁时会停止使用。

是我遗漏了什么？还是过度思考了？答案是否定的，仅仅因为“它最便宜”且免费期吸引了足够多的尝鲜用户？

但 Hy3 预览版真的是 OpenRouter 上由大公司支持的最便宜 LLM 吗？在复核假设时发现，OpenRouter 数据显示 Hy3 并非性能最优的最低价选项：实际是 DeepSeek V4 Flash，但需注意特殊条件。

2026 年大语言模型经济学

以下是较少被讨论的 LLM API 运作细节：LLM 调用仍无状态性，即每次对话轮次（包括用户提问）都会重新处理当前线程所有 token。因此，在代理场景中，输入 token 会随消息累积递增，这也是为何建议上下文填满时频繁新建线程以优化代理效率的原因。

选择 DeepSeek V4 Flash 的 Zed Agent 一分钟操作日志（按时间倒序排列）。

甚至在代理流程之前，大型输入（如完整 PDF）也会因上下文膨胀而消耗大量资源。多数 LLM 提供商因此实现了提示缓存机制，复用已处理的输入 token：这对提供商和客户均有利，节省算力与时间。通过 OpenRouter 访问时，多数提供商自动启用缓存，闪电符号旁标注的成本表示该 token 被缓存命中（非总是有效，尤其 OpenRouter 中途切换提供商时）。例外是 Anthropic（Claude）API，需预先支付缓存写入费用。

通常缓存读取成本为输入成本的 10%：OpenAI、Anthropic 和 Google Gemini 最新模型均符合此比例。但 13 家 DeepSeek V4 Flash 提供商的缓存读取成本介于 20%-50% 之间，可能因其规模效应不及头部厂商。不过有一家 DeepSeek V4 Flash 提供商除外：

这缓存读取成本只有2%！（乘以2，小数点左移两位）DeepSeek的缓存读取价格为何如此之低？从V4版本开始，DeepSeek实施了一种全新的KV缓存方法。作为模型的开发者，它能够最充分地利用自身创新带来的优势，正如前面提到的，这些好处最终会传递给客户。DeepSeek V4 Pro变体模型在使用DeepSeek服务时，缓存读取成本低至0.83%！（算一下这个数值）

还记得我提到过LLM API成本的98%现在来自输入token，而这些输入token被积极缓存了吗？这意味着目前“标称”的LLM价格已经具有误导性，但反常的是这种误导是有利于用户的——因为实际价格会便宜得多！为消除这种模糊性，OpenRouter现在在每个模型的页面上提供了有效价格表，其中考虑了缓存命中带来的成本节省。以下是通过OpenRouter各提供商提供的DeepSeek V4 Flash的有效定价，因各提供商的缓存读取成本和命中率不同而有所差异：

数据检索日期：2026年5月25日；这些值每小时更新一次。

价格各不相同，但注意第二行中DeepSeek自身作为提供商的定价高达每百万输入token $0.018！那2%的缓存读取确实带来了显著收益。与Hy3预览版进行直接对比（SiliconFlow标注其缓存读取成本高达44%），Hy3预览版的有效价格为$0.034/1M：几乎是DeepSeek V4 Flash的两倍！当然，这仅适用于明确选择DeepSeek作为提供商的情况，部分下游OpenRouter客户端/代理可能不支持：OpenRouter的价格与直接从DeepSeek获取的价格一致，因此使用直接的DeepSeek API密钥效果相同。

还有一个不容忽视的问题：DeepSeek是一家中国公司，部分用户可能不愿或无法向这家在OpenRouter数据政策中将提示训练设为true的中国公司提供支付信息或LLM输入数据，这是一个合理的担忧。

如果你能持续耗尽使用限额，订阅制LLM服务（如Claude Code和Codex）仍然是性价比最高的选择。但通过API使用的超低价DeepSeek V4 Flash不会绑定订阅，若项目需要更多自主计算能力来完成，其费用也低于订阅服务的超额使用费。至少，这可以作为对抗2026年及以后AI代理竞争加剧时额外定价策略的微经济学手段。

总体而言，我仍不理解Hy3预览版为何在OpenRouter上如此受欢迎。根据上述数据和推测，很可能是腾讯之外某个大型应用将其作为数据处理核心，且该应用并非单纯的编程代理工具。但OpenRouter的优势在于切换模型和提供商成本低廉：一旦人们发现DeepSeek V4 Flash的定价优势，几周内其使用率激增也不足为奇。

Hy3的许可协议存在某种限制性条款，可能会阻碍提供商采用该模型。↩︎

DeepSeek 刚刚也发布了其自有的编码代理平台，搭载了 V4 Flash，据称利用了强大的缓存技术，但其输入成本仅为 50%，而缓存读取成本却高得惊人（20%），因此目前尚不清楚这种方案的经济性是否真的比直接使用 DeepSeek API 密钥搭配其他代理更划算。

需要完整排版与评论请前往来源站点阅读。