🤖 AI / ML

Qwen3.6-35B-A3B 在笔记本上绘制的鹈鹕优于 Claude Opus 4.7Qwen3.6-35B-A3B on my laptop drew me a better pelican than Claude Opus 4.7

simonwillison.net·2026-04-16

Simon Willison 对比测试了阿里云 Qwen3.6-35B-A3B 与 Anthropic Claude Opus 4.7 在“骑自行车的鹈鹕”图像生成任务上的表现。结果显示，Qwen3.6 生成的图像细节更丰富、构图更自然，且在本地运行无需联网，凸显其在消费级硬件上的高效性与创造力。尽管两者均为前沿模型，但 Qwen3.6 在视觉生成任务上略胜一筹。

阅读原文

Simon Willison

2026年4月16日

对于那些（不明智地）把我的“信天翁骑单车”基准测试当作一种稳健的模型评估方法的人来说，这里有一些今早两大模型发布会的信天翁——来自阿里云的 Qwen3.6-35B-A3B 和 Anthropic 的 Claude Opus 4.7。

这是我用这个 20.9GB 的 Qwen3.6-35B-A3B-UD-Q4_K_S.gguf 量化模型生成的 Qwen 3.6 信天翁，该模型由 Unsloth 提供，运行在我的 MacBook Pro M5 上，通过 LM Studio（以及 llm-lmstudio 插件）——转录如下：

这是我从 Anthropic 全新发布的 Claude Opus 4.7 得到的信天翁（转录）：

我把这一票投给 Qwen 3.6。Opus 竟然把自行车框架搞砸了！

我第二次尝试 Opus，设置了 thinking_level: max，结果并没有好多少（转录）：

我不认为 Qwen 在作弊

很多人坚信这些实验室是为我的愚蠢基准测试专门训练的。我不这么认为，但说实话，这个结果确实让我产生了一丝怀疑。所以我决定用我的一个秘密备份测试来验证——以下是 Qwen3.6-35B-A3B 和 Opus 4.7 对“生成一只骑独轮车的火烈鸟的 SVG”的回答：

我也把这票投给 Qwen，部分原因是因为它生成的 SVG 注释非常出色 。

我们能从这个中学到什么？

信天翁基准测试从一开始就只是个玩笑——它主要是在讽刺比较这些模型任务的荒谬性和无意义。

这个玩笑最奇怪的地方在于，大多数情况下，生成的信天翁质量与模型的普遍实用性之间存在直接相关性。2024年10月最初的那批信天翁简直是一堆垃圾。而最近的版本普遍要好得多得多——以至于 Gemini 3.1 Pro 生成的插图实际上可以在某个地方派上用场，只要你迫切需要画一只骑自行车的信天翁。

但现在，这种与实用性的松散联系也被打破了。我非常尊重 Qwen，但我严重怀疑他们最新模型的 21GB 量化版本会比 Anthropic 最新的专有发布更强大或更有用。

不过，如果你需要的是一只骑自行车的信天翁的 SVG 插图，那么目前来说，在笔记本电脑上运行的 Qwen3.6-35B-A3B 比 Opus 4.7 更值得推荐！

需要完整排版与评论请前往来源站点阅读。