拿着业余无线电的浣熊在哪儿?ChatGPT Images 2.0 实测Where's the raccoon with the ham radio? (ChatGPT Images 2.0)
OpenAI 发布 ChatGPT Images 2.0,Sam Altman 称其从 1.0 到 2.0 的跃迁堪比 GPT-3 到 GPT-5。作者通过生成“寻找手持业余无线电的浣熊”这类复杂图像任务测试模型能力,验证其语义理解与细节还原水平。新模型在构图逻辑、物体关系和风格一致性上显著提升,能更准确执行多元素组合指令。这表明图像生成模型已进入高阶语义对齐阶段。
Simon Willison
2026年4月21日
OpenAI 今天发布了 ChatGPT Images 2.0,这是他们最新的图像生成模型。在直播中,Sam Altman 表示从 gpt-image-1 到 gpt-image-2 的跨越,相当于从 GPT-3 跃升到 GPT-5。下面我来测试一下它的表现。
我的提示词:
生成一张“威利在哪里”风格的图片,但这次要找的是拿着业余无线电设备的浣熊
gpt-image-1
首先作为基准,这是我用 ChatGPT 直接调用旧版 gpt-image-1 得到的结果:
我没能找到那只浣熊——我很快意识到,用“威利在哪里”风格的图片(在英国叫“威利在哪里”)来测试图像生成模型真是令人抓狂!
我尝试让 Claude Opus 4.7 利用其新增的高分辨率输入功能来找出它,但它坚称有一只浣熊找不到,因为图像左上角的那张提示卡片干扰了判断:
没错——图中确实至少有一只浣熊,但它藏得非常好。我仔细放大检查了各个区域,说实话,我根本无法明确地找到一只拿着业余无线电设备的浣熊。[...]
Nano Banana 2 和 Pro
接下来我试用了 Google 的 Nano Banana 2,通过 Gemini 调用:
这次非常明显,浣熊就在图像中央的“业余无线电俱乐部”展位里!
Claude 说:
说实话,这次它根本没怎么藏——它就是这个展位的明星。感觉插画师在上一张不可能找到的场景之后,终于对我们动了恻隐之心。展位牌上那个小小的“W6HAM”呼号双关语也挺有意思的。
我还在 AI Studio 中试用了 Nano Banana Pro,结果如下,这是所有模型中最差的一次。真不知道这里出了什么问题!
gpt-image-2
基准测试完成后,我们来试试这个新模型。
我使用了一个更新版的 openai_image.py 脚本,它是对 OpenAI Python 客户端库的一个轻量封装。他们的客户端库尚未更新以支持 gpt-image-2,但好在它不会校验模型 ID,所以可以直接使用。
我是这样运行的:
OPENAI_API_KEY="$(llm keys get openai)" \
uv run https://tools.simonwillison.net/python/openai_image.py \
-m gpt-image-2 \
"Do a where's Waldo style image but it's where is the raccoon holding a ham radio"这是返回的结果。我认为里面没有浣熊——我找不到,Claude 也找不到。
OpenAI 图像生成指南已更新,加入了关于 gpt-image-2 的说明,包括 outputQuality 设置和可用尺寸。
我尝试将 outputQuality 设为 high,尺寸设为 3840x2160——我相信这是最大值——得到了这张图——一个 17MB 的 PNG 文件,我将其转换为 5MB 的 WEBP:
OPENAI_API_KEY="$(llm keys get openai)" \
uv run 'https://raw.githubusercontent.com/simonw/tools/refs/heads/main/python/openai_image.py' \
-m gpt-image-2 "Do a where's Waldo style image but it's where is the raccoon holding a ham radio" \
--quality high --size 3840x2160这效果相当不错!图中确实有一只拿着业余无线电设备的浣熊(左下角,很容易发现)。
该图像消耗了 13,342 个输出 token,按每百万 token 30 美元计费,总成本约为 40 美分。
总结
我认为这款新的 ChatGPT 图像生成模型目前暂时超越了 Gemini。
“威利在哪里”风格的图像虽然是测试这些模型的一种令人抓狂甚至有点愚蠢的方式,但它确实有助于说明这些模型在结合文本与细节的复杂插画方面进步有多大。
更新:让模型自己解题有风险
Hacker News 上的 rizaco 让 ChatGPT 在其中一张我未能找到浣熊的图像中用红圈标出浣熊。这是他们结果与原图的动态合成图:
看来我们确实不能指望这些模型能可靠地解决它们自己生成的谜题!
需要完整排版与评论请前往来源站点阅读。