GLM 5.2 游玩文字冒险游戏实测GLM 5.2 playing text adventures
为了测试新开源的 GLM 5.2 模型的真实能力,作者通过文字冒险游戏将其与价格相近的 Gemini 3 Flash 进行了对比。测试设定每个 LLM 有几次尝试机会,且每次尝试的预算被严格限制在 0.15 美元左右。文章没有采用传统的基准测试,而是通过这种交互式游戏场景来检验模型在受限预算下的逻辑和指令遵循能力。这种新颖的评测方式为开发者评估大模型提供了实用参考。
kqr
我听说最近新发布的 glm 5.2 开源权重模型引起了一些热议。据说它能力很强!我不打算跑完整的对比基准测试,但我在 OpenRouter 上还有一些没用完的额度,所以我想把 glm 5.2 和价格相近的 Gemini 3 Flash 做个对比。目前市场上运行 glm 5.2 模型的推理成本是每百万输出 tokens 4.4 美元,而 Google 的模型每百万输出 tokens 收费 3 美元。我预计,随着大家摸索出更高效的部署方式,或者热度逐渐消退,glm 模型的价格会有所下降。我之前测试过的开源权重模型也是这种情况。我们就来看看结果如何。
这采用了与之前基准测试相同的设置:每个 llm 都有几次尝试玩游戏的机会,每次尝试的预算固定在 0.15 美元左右。llm 并不知情,但测试框架会记录每场游戏获得的成就,并统计 llm 在每次尝试中赢得了多少成就。
以下是本次运行中每款游戏的尝试次数。
接着我做了一件愚蠢又好笑的事:拟合了一个简单的线性回归模型来预测每次尝试的成就数量,其中将 llm 模型作为解释性固定效应,游戏作为随机效应。为什么我以前没有对游戏难度使用随机效应?我本该这么做的!但那时我还不了解混合效应模型。我总是在学习新东西。在这样控制了游戏难度之后,Gemini 3 Flash 在一次典型的尝试中能获得刚好超过八个成就。新的 glm 5.2 获得的成就少了 15%,并且在常规显著性水平下具有统计学意义。
这并不能说明太多问题——少 15% 的成就算是很差还是尚可接受?如果不与其他模型比较很难说,但它与拟合模型中残余噪声的标准差在量级上大致相同。因此,我们可以说它比文字冒险游戏 llms 中的王者差了大约 0.8 个噪声水平。这相当令人印象深刻。例如,它绝对比 Gemini 2.5 Flash 要好,后者比 Gemini 3 Flash 差了 1.6 个噪声水平。
(由于预算限制,Sonnet 4.5 和 gpt 5.2 等本身能力很强但非常昂贵的模型,其表现分别比基准噪声水平差 2.5 倍和 3 倍。)
需要完整排版与评论请前往来源站点阅读。