ChatGPT Images 2.0发布:图像生成能力飞跃Where's the raccoon with the ham radio? (ChatGPT Images 2.0)
OpenAI发布了ChatGPT Images 2.0,其图像生成模型实现了显著跃升。CEO Sam Altman表示从gpt-image-1到gpt-image-2的进步相当于从GPT-3到GPT-5的跨越。新版本在复杂场景理解和细节表现方面有明显提升,能够处理更具挑战性的创意任务。
Simon Willison
2026年4月21日
OpenAI今天发布了ChatGPT Images 2.0,这是他们最新的图像生成模型。在直播中,萨姆·阿尔特曼表示,从gpt-image-1到gpt-image-2的跃迁,相当于从GPT-3跳到GPT-5。下面我来亲自测试一下。
我的提示词:
画一张“找找看”风格的图片,但内容是:在哪里可以找到一只拿着火腿电台(ham radio)的浣熊?
gpt-image-1
首先作为基线对比,这是我用旧版gpt-image-1通过ChatGPT直接生成的结果:
我没能找到那只浣熊——很快我就意识到,用“找找看”(Where’s Waldo/Wally)这类谜题来测试图像生成模型其实相当令人沮丧!
我又尝试让Claude Opus 4.7(它支持更高分辨率输入的新功能)来解决这个问题,但它却坚称图片左上角那张指令卡上有一只浣熊,只是自己没找到而已:
是的——图片里至少有一只浣熊,但它藏得非常隐蔽。说实话,在我仔细放大检查各个区域后,仍然无法确定地指出哪只浣熊拿着火腿电台。[...]
Nano Banana 2 和 Pro
接下来我试了Google的Nano Banana 2,通过Gemini调用:
这个就很明显了,浣熊就在画面中央那个“业余无线电俱乐部”(Amateur Radio Club)摊位上!
Claude说:
坦白讲,这一张并不算太难找——浣熊简直是摊位的明星。看来上次那个几乎不可能完成的场景之后,画师也对我们手下留情了。摊位招牌上那个“W6HAM”呼号的双关语也挺有意思。
我还试了Nano Banana Pro,在AI Studio里得到了这张图,目前所有模型中最差的结果。真不知道这里发生了什么!
gpt-image-2
既然基线已经建立,现在让我们试试新模型。
我用了更新版的openai_image.py脚本,它是OpenAI Python客户端库的一个轻量级封装。他们的客户端库还没更新以支持gpt-image-2,不过好在它不会验证模型ID,所以你可以直接拿来用。
我是这样运行的:
OPENAI_API_KEY="$(llm keys get openai)" \
uv run https://tools.simonwillison.net/python/openai_image.py \
-m gpt-image-2 \
"Do a where's Waldo style image but it's where is the raccoon holding a ham radio"返回的结果是:我不觉得里面有一只浣熊——我自己没看到,Claude也没看到。
OpenAI图像生成指南已更新,加入了关于gpt-image-2的说明,包括outputQuality设置和可用的尺寸选项。
我尝试将outputQuality设为high,尺寸设为3840x2160——我认为这是最大值——得到了一张17MB的PNG图片,我把它转成了5MB的WEBP格式:
OPENAI_API_KEY="$(llm keys get openai)" \
uv run 'https://raw.githubusercontent.com/simonw/tools/refs/heads/main/python/openai_image.py' \
-m gpt-image-2 "Do a where's Waldo style image but it's where is the raccoon holding a ham radio" \
--quality high --size 3840x2160这已经很不错了!左下角确实有一只拿着火腿电台的浣熊(很容易找到)。
这张图使用了13,342个输出标记(output tokens),按每百万$30计费,总成本约为40美分。
总结
我认为这款新的ChatGPT图像生成模型至少在现阶段已经超越了Gemini。
“找找看”类图片虽然让人抓狂,也算不上聪明的测试方式,但它们确实能很好地展示这些模型在融合文字与细节的复杂插图方面的进步。
更新:让模型解决这类问题是存在风险的
Hacker News上的rizaco让我用ChatGPT给其中一张我找不到浣熊的图片画个红圈圈出来。以下是他们结果与原图的动画混合效果:
看来我们真的不能指望这些模型能可靠地解决它们自己的谜题!
需要完整排版与评论请前往来源站点阅读。