那只拿着业余无线电的浣熊在哪里?(ChatGPT Images 2.0)Where's the raccoon with the ham radio? (ChatGPT Images 2.0)
OpenAI 发布了 ChatGPT Images 2.0,其图像生成能力被 Sam Altman 称为从 GPT-3 到 GPT-5 级别的飞跃。作者通过一个‘寻找拿着业余无线电的浣熊’的 Where's Waldo 风格测试来验证模型性能。结果显示该模型在复杂场景理解和多对象组合推理方面表现出色。
Simon Willison
2026年4月21日
OpenAI今日发布了ChatGPT Images 2.0,这是其最新的图像生成模型。在直播中,山姆·阿尔特曼表示,从gpt-image-1到gpt-image-2的跃迁相当于从GPT-3跨越到GPT-5。下面我来亲自测试一下。
我的提示词:
生成一张“找找看”风格(Where's Waldo)的图片,但内容是寻找一只手持火腿电台(ham radio)的浣熊。
gpt-image-1
首先作为基准对比,这是我使用较旧的gpt-image-1通过ChatGPT直接生成的结果:
我没能找到那只浣熊——很快我就意识到,用“找找看”类图片(英国叫“Where’s Wally”)来测试图像生成模型其实相当令人沮丧!
我又尝试让Claude Opus 4.7(它支持更高分辨率输入的新版本)来解决这个问题,但它却坚称图片左上角指令卡上写着有浣熊,可它自己却找不到:
是的,图片里至少有一只浣熊,但它藏得非常隐蔽。说实话,在我仔细放大检查各个区域后,依然无法确定地指出哪只浣熊拿着火腿电台。[...]
Nano Banana 2 和 Pro
接下来我试用了Google的Nano Banana 2,通过Gemini调用:
这个就很明显了,浣熊就在画面中央“业余无线电俱乐部”(Amateur Radio Club)的展位上!
Claude评论道:
说真的,这次它藏得并不好——简直就是展位的明星主角。看来在经历了上一张几乎不可能完成的场景之后,这位插画师对我们格外仁慈。展位招牌上那个“W6HAM”呼号的巧妙双关也很有意思。
我还试用了AI Studio里的Nano Banana Pro,结果却是最差的一张。真不知道哪里出了问题!
gpt-image-2
现在有了基准参照,让我们试试新模型。
我使用了更新版的openai_image.py脚本,它是OpenAI Python客户端库的一个轻量级封装。虽然他们的客户端库尚未正式支持gpt-image-2,但好在它不会验证模型ID,所以你可以直接使用。
我是这样运行的:
OPENAI_API_KEY="$(llm keys get openai)" \
uv run https://tools.simonwillison.net/python/openai_image.py \
-m gpt-image-2 \
"Do a where's Waldo style image but it's where is the raccoon holding a ham radio"返回的结果如下。我不觉得里面有什么浣熊——我自己没看见,Claude也没找到。
OpenAI图像生成指南已更新,加入了关于gpt-image-2的说明,包括outputQuality设置和可用尺寸。
我尝试将outputQuality设为high,尺寸设为3840x2160(我认为这是最大值),得到了这张图——一个17MB的PNG文件,我将其转换为5MB的WEBP格式:
OPENAI_API_KEY="$(llm keys get openai)" \
uv run 'https://raw.githubusercontent.com/simonw/tools/refs/heads/main/python/openai_image.py' \
-m gpt-image-2 "Do a where's Waldo style image but it's where is the raccoon holding a ham radio" \
--quality high --size 3840x2160这已经很不错了!左下角确实有一只拿着火腿电台的浣熊(位置很显眼)。
该图像使用了13,342个输出标记,按每百万$30计费,总成本约为40美分。
总结
我认为这款新的ChatGPT图像生成模型至少在目前阶段超越了Gemini。
“找找看”风格的图片虽然令人抓狂且略显愚蠢,但它们确实能很好地展示这些模型在融合文字与细节的复杂插图方面的进步。
更新:让模型解决这类问题是存在风险的
Hacker News上的rizaco让我用ChatGPT给其中一张我未能找到浣熊的图片画个红圈圈出浣熊。以下是他们结果与原图的动画混合效果:
看来我们确实不能指望这些模型能可靠地解决它们自己的谜题!
需要完整排版与评论请前往来源站点阅读。