Qwen3.6-35B-A3B 在笔记本上绘制的鹈鹕优于 Claude Opus 4.7Qwen3.6-35B-A3B on my laptop drew me a better pelican than Claude Opus 4.7
Simon Willison 对比测试了阿里云 Qwen3.6-35B-A3B 与 Anthropic Claude Opus 4.7 在“骑自行车的鹈鹕”图像生成任务上的表现。结果显示,Qwen3.6 生成的图像细节更丰富、构图更自然,且在本地运行无需联网,凸显其在消费级硬件上的高效性与创造力。尽管两者均为前沿模型,但 Qwen3.6 在视觉生成任务上略胜一筹。
Simon Willison
2026年4月16日
对于那些(不明智地)把我的“信天翁骑单车”基准测试当作一种稳健的模型评估方法的人来说,这里有一些今早两大模型发布会的信天翁——来自阿里云的 Qwen3.6-35B-A3B 和 Anthropic 的 Claude Opus 4.7。
这是我用这个 20.9GB 的 Qwen3.6-35B-A3B-UD-Q4_K_S.gguf 量化模型生成的 Qwen 3.6 信天翁,该模型由 Unsloth 提供,运行在我的 MacBook Pro M5 上,通过 LM Studio(以及 llm-lmstudio 插件)——转录如下:
这是我从 Anthropic 全新发布的 Claude Opus 4.7 得到的信天翁(转录):
我把这一票投给 Qwen 3.6。Opus 竟然把自行车框架搞砸了!
我第二次尝试 Opus,设置了 thinking_level: max,结果并没有好多少(转录):
我不认为 Qwen 在作弊
很多人坚信这些实验室是为我的愚蠢基准测试专门训练的。我不这么认为,但说实话,这个结果确实让我产生了一丝怀疑。所以我决定用我的一个秘密备份测试来验证——以下是 Qwen3.6-35B-A3B 和 Opus 4.7 对“生成一只骑独轮车的火烈鸟的 SVG”的回答:
我也把这票投给 Qwen,部分原因是因为它生成的 SVG 注释非常出色 <!-- 火烈鸟戴着太阳镜! -->。
我们能从这个中学到什么?
信天翁基准测试从一开始就只是个玩笑——它主要是在讽刺比较这些模型任务的荒谬性和无意义。
这个玩笑最奇怪的地方在于,大多数情况下,生成的信天翁质量与模型的普遍实用性之间存在直接相关性。2024年10月最初的那批信天翁简直是一堆垃圾。而最近的版本普遍要好得多得多——以至于 Gemini 3.1 Pro 生成的插图实际上可以在某个地方派上用场,只要你迫切需要画一只骑自行车的信天翁。
但现在,这种与实用性的松散联系也被打破了。我非常尊重 Qwen,但我严重怀疑他们最新模型的 21GB 量化版本会比 Anthropic 最新的专有发布更强大或更有用。
不过,如果你需要的是一只骑自行车的信天翁的 SVG 插图,那么目前来说,在笔记本电脑上运行的 Qwen3.6-35B-A3B 比 Opus 4.7 更值得推荐!
需要完整排版与评论请前往来源站点阅读。