Hy3 LLM为何在OpenRouter模型排名中大幅领先?The mysterious Hy3 LLM is topping OpenRouter Model Rankings by a large margin
文章探讨了Hy3 LLM为何在OpenRouter模型排名中显著领先的问题。尽管未明确解释原因,但暗示Hy3可能在性能或效率方面有独特优势。排名结果引发了关于该模型技术细节的猜测和讨论。
OpenRouter 是一个通过单一 API 提供访问大多数大语言模型(LLM)的服务,随着新 LLM 发布节奏的加快,这一服务近期变得尤为有用。由于该公司在用户与 LLM API 之间扮演中介角色,OpenRouter 拥有关于用户如何与 LLM 交互的详细代表性数据,并将在 AI Model Rankings 页面公开这些数据——这本身已是实验室出于竞争原因通常保密数据的难得之举。最近我查看了 OpenRouter 排名时,发现了一些奇怪的现象。
检索日期:2026年5月25日。
如今有两个新模型在 token 使用量上比备受推崇的 Claude 高出超过50%?DeepSeek Flash V4 听说过:这是 DeepSeek 开源的模型,不仅速度快、成本低,而且能以极低费用性能媲美顶级 LLM 模型,因此其流行不足为奇。但 Hy3 preview 是什么鬼?我从未听过这个名称或相关讨论。搜索 Google 只返回了中国科技巨头腾讯关于 Hy3 开源发布的公告;Hugging Face 上的模型页面信息稀疏,且包含与其他中国开源模型相比不太有利的诚实基准测试结果。
腾讯 Hugging Face 仓库中 Hy3 的编程导向基准测试结果。
Hacker News 搜索“Hy3”仅返回一条无关提交,Reddit 讨论更多围绕权重开源展开。一个 Reddit 线程还提到 Hy3 自 5 月 6 日起通过 OpenRouter 免费开放;该免费端点已不可用,因此上述每周排名中 Hy3 的使用数据来自付费用户。
看来 Hy3 preview 在非代理式编码领域也颇受欢迎。
检索日期:2026年5月25日。
难道我遗漏了什么?经过非科学测试后,模型质量确实与其他标注的中国模型相当,远不及 Claude Opus 4.7 和 GPT 5.5 等模型。它并非被忽视的隐藏瑰宝,背后必然另有玄机。幸运的是,OpenRouter 的数据有助于缩小可能解释的范围,但查阅数据后我反而更困惑了。
Hy3 preview 通过 OpenRouter API 以每百万输入 tokens $0.066 的价格提供,确实低于当前排名第一的 DeepSeek V4 Flash(每百万输入 tokens $0.10)。考虑到 LLM 及编码代理成本急剧上涨,低成本模型胜出合乎逻辑——但这需以同等质量为前提,而事实似乎并非如此。
以下是 OpenRouter 模型页面上展示的 Hy3 preview 随时间推移的使用情况图表:
Hy3 preview 在 5 月 8 日前无使用数据,暗示该模型从免费 SKU 切换至付费 SKU 的时间节点。此后使用量保持稳定,本文显示的初始排名距离上线已过去数周,表明其增长至少是自然形成的(或需极高成本伪造),而非一次性异常值。值得注意的是,若计算此处提供的数值,LLM API 调用的输入-输出 token 比例现为整体 98% 输入、2% 输出。
在 OpenRouter AI 模型排名中,历史上曾因特定应用将默认切换至某个大语言模型(LLM)而产生流量激增,例如 2025 年 9 月 Kilo Code 免费提供 Grok Code Fast 1 时,其使用率一度飙升。但当前情况并非如此,因为应用仅占 Hy3 预览版活动的极小部分。
排名前 5 的应用仅占 Hy3 预览版全部活动量的不到 1%。
OpenRouter 的核心优势在于能自动将 API 请求路由至不同提供商:对于开源模型如 DeepSeek V4 Flash,OpenRouter 列出 13 个提供商,但 Hy3 预览版尽管采用开源权重,却仅有一家新加坡 SiliconFlow 作为提供商。OpenRouter 上 SiliconFlow 的使用量页面显示,其此前使用量相对较低……直到 Hy3 出现。
绿色区域对应免费 Hy3 使用量,蓝色区域对应付费 Hy3 使用量:OpenRouter 悬停鼠标未区分两者,我怀疑这是系统 bug。
有趣的是,数据可视化显示当 Hy3 预览版从免费转为付费后,使用量并未骤降——若用户认为免费版无价值,很可能在成本转嫁时会停止使用。
是我遗漏了什么?还是过度思考了?答案是否定的,仅仅因为“它最便宜”且免费期吸引了足够多的尝鲜用户?
但 Hy3 预览版真的是 OpenRouter 上由大公司支持的最便宜 LLM 吗?在复核假设时发现,OpenRouter 数据显示 Hy3 并非性能最优的最低价选项:实际是 DeepSeek V4 Flash,但需注意特殊条件。
2026 年大语言模型经济学
以下是较少被讨论的 LLM API 运作细节:LLM 调用仍无状态性,即每次对话轮次(包括用户提问)都会重新处理当前线程所有 token。因此,在代理场景中,输入 token 会随消息累积递增,这也是为何建议上下文填满时频繁新建线程以优化代理效率的原因。
选择 DeepSeek V4 Flash 的 Zed Agent 一分钟操作日志(按时间倒序排列)。
甚至在代理流程之前,大型输入(如完整 PDF)也会因上下文膨胀而消耗大量资源。多数 LLM 提供商因此实现了提示缓存机制,复用已处理的输入 token:这对提供商和客户均有利,节省算力与时间。通过 OpenRouter 访问时,多数提供商自动启用缓存,闪电符号旁标注的成本表示该 token 被缓存命中(非总是有效,尤其 OpenRouter 中途切换提供商时)。例外是 Anthropic(Claude)API,需预先支付缓存写入费用。
通常缓存读取成本为输入成本的 10%:OpenAI、Anthropic 和 Google Gemini 最新模型均符合此比例。但 13 家 DeepSeek V4 Flash 提供商的缓存读取成本介于 20%-50% 之间,可能因其规模效应不及头部厂商。不过有一家 DeepSeek V4 Flash 提供商除外:
这缓存读取成本只有2%!(乘以2,小数点左移两位)DeepSeek的缓存读取价格为何如此之低?从V4版本开始,DeepSeek实施了一种全新的KV缓存方法。作为模型的开发者,它能够最充分地利用自身创新带来的优势,正如前面提到的,这些好处最终会传递给客户。DeepSeek V4 Pro变体模型在使用DeepSeek服务时,缓存读取成本低至0.83%!(算一下这个数值)
还记得我提到过LLM API成本的98%现在来自输入token,而这些输入token被积极缓存了吗?这意味着目前“标称”的LLM价格已经具有误导性,但反常的是这种误导是有利于用户的——因为实际价格会便宜得多!为消除这种模糊性,OpenRouter现在在每个模型的页面上提供了有效价格表,其中考虑了缓存命中带来的成本节省。以下是通过OpenRouter各提供商提供的DeepSeek V4 Flash的有效定价,因各提供商的缓存读取成本和命中率不同而有所差异:
数据检索日期:2026年5月25日;这些值每小时更新一次。
价格各不相同,但注意第二行中DeepSeek自身作为提供商的定价高达每百万输入token $0.018!那2%的缓存读取确实带来了显著收益。与Hy3预览版进行直接对比(SiliconFlow标注其缓存读取成本高达44%),Hy3预览版的有效价格为$0.034/1M:几乎是DeepSeek V4 Flash的两倍!当然,这仅适用于明确选择DeepSeek作为提供商的情况,部分下游OpenRouter客户端/代理可能不支持:OpenRouter的价格与直接从DeepSeek获取的价格一致,因此使用直接的DeepSeek API密钥效果相同。
还有一个不容忽视的问题:DeepSeek是一家中国公司,部分用户可能不愿或无法向这家在OpenRouter数据政策中将提示训练设为true的中国公司提供支付信息或LLM输入数据,这是一个合理的担忧。
如果你能持续耗尽使用限额,订阅制LLM服务(如Claude Code和Codex)仍然是性价比最高的选择。但通过API使用的超低价DeepSeek V4 Flash不会绑定订阅,若项目需要更多自主计算能力来完成,其费用也低于订阅服务的超额使用费。至少,这可以作为对抗2026年及以后AI代理竞争加剧时额外定价策略的微经济学手段。
总体而言,我仍不理解Hy3预览版为何在OpenRouter上如此受欢迎。根据上述数据和推测,很可能是腾讯之外某个大型应用将其作为数据处理核心,且该应用并非单纯的编程代理工具。但OpenRouter的优势在于切换模型和提供商成本低廉:一旦人们发现DeepSeek V4 Flash的定价优势,几周内其使用率激增也不足为奇。
需要完整排版与评论请前往来源站点阅读。