返回 2026-05-22
🤖 AI / ML

o3 模型未能成功复现著名的 GeoGuessr 提示效果The famous o3 "GeoGuessr" prompt did not work

seangoedecke.com·2026-05-21

OpenAI 的 o3 模型被广泛报道能像人类高手一样通过照片精准定位地理位置(类似 GeoGuessr 游戏),但 Sean Goedecke 测试发现,此前 Kelsey Piper 所展示的成功案例无法在当前版本中复现。该测试使用了一个典型的海滩照片,而 o3 并未给出准确位置判断。这表明 o3 的地理推理能力可能被高估,或在特定条件下才有效。文章质疑了媒体对大模型能力的过度宣传现象。

去年4月,凯西·皮珀(Kelsey Piper)发现 OpenAI 的 o3 模型在判断照片拍摄位置方面表现惊人。像人类“地理猜猜乐”(geoguessr)高手一样,o3 有时能准确指出一张看似普通的沙滩照片的具体拍摄地点。以下是凯西举的例子:

多人尝试后也取得了不错的效果:虽然成功率并非100%,但显然远胜于随机猜测的人类。这说明模型能力可能会带来意外惊喜。在凯西发布推文之前,o3 模型已上线两周,却无人注意到它在地理位置识别方面的强大能力。我们是否遗漏了其他不为人知的能力?当前模型还有哪些潜力尚未被发掘?

有人从中得出另一条启示:“提示工程”(prompt engineering)可能解锁全新的能力。这是因为凯西构建了一个经过长期打磨的“魔法提示词”。每当 o3 出错时,她会要求它反思如何避免错误,并将这些改进加入提示中。以下是该提示词的前10%内容,供你参考:

你现在正在参加一场单轮的 GeoGuessr 游戏。任务是从一张静态图像中推断出最可能的真实世界位置。请注意,与 GeoGuessr 游戏中的情况不同,这些图像并不保证拍摄于谷歌街景车可到达之处——它们可能是用户提交的测试图片,用于检验你的图像定位能力。私人土地、某人的后院或越野探险地都是真实可能性(尽管许多图像仍可在街景中找到)。请了解你自己的优势与不足:遵循此协议,通常能准确猜出大洲和国家……

这个提示词让很多人印象深刻,他们试用后报告称能正确识别大量图像。但显然,仅用一句基本的“仔细想想这张照片是在哪里拍的?”提示,o3 也能正确识别大量图像。那么,这个复杂的提示词真的有用吗?光靠 ChatGPT 里试几次很难判断。你需要建立一个包含图像的评估集,并分别用两种提示运行 o3 两次:一次使用高级提示,另一次则不使用。

我就是这么做的。我从 Wikimedia Commons、Geograph Britain and Ireland 和 iNaturalist 三个来源抽取200张图像作为基准测试集。你可以在此阅读 AI 生成的总结,但关键数据如下:

总体而言,基础提示的平均表现更优。它始终能给出更接近实际位置的答案。两种提示都表现不错。尽管高级提示长达基础提示的十倍,o3 的思考时间仅略有增加(平均约多一秒,最长从5分钟增至约10分钟)。我的测试图像多为典型的地理猜猜乐风格户外场景,另有12张室内图用于额外挑战(高级提示在这些图像上的表现也更差)。

这是怎么回事?我觉得这说明了为什么人们很容易高估自己提示词的质量。当模型本身已经对某项任务掌握得相当不错时,即使你给它一个非常复杂的提示词,也不会影响其表现。它依然会表现得很好,但这一次之所以好,是因为你的功劳。如果你正在与模型迭代优化,并针对每个错误反复询问“我该在提示词里加什么”,那么这一点尤为明显。模型会很乐意编造关于自身推理过程的故事,而且当你问它某个提示词改动是否有帮助时,它们几乎总是回答“是的,效果显著!”。但真正要判断这一点,唯一可靠的方法是建立一个基准测试1。

有趣的是,当时竟然没人注意到这一点。我花了大约六小时的分心工作和约15美元就构建并运行了这个基准测试。那为什么在别人写文章吹捧o3的提示词有多神奇的时候,没人想到做这么一件事呢?

一种善意的解释可能是:那个故事的重点其实不在于“魔法提示词”,而在于o3真实的地理定位能力。此外,o3的价格曾经贵出五倍左右(不过就算只跑40张图片而不是200张,也足以让人怀疑那个提示词到底有多少水分)。再者,AI发展得太快了——地理定位只是昙花一现的话题,撑死也就一周;之后大家讨论的都是GPT-4o的阿谀奉承行为。另一个原因是当时的AI工具不够强大。我能轻松运行这个基准测试,很大程度上得益于GPT-5.5承担了大部分繁重工作。在那之前,没有强力的智能体帮你自动化流程,你得自己动手写(虽然简单)的测试框架。我也不能太苛责别人:我当时也没多想就跳过了这一步。

也许我的基准测试设计得不够好?照片看起来还算合理:大多是类似Geoguessr风格的公路和风景照,种类也算丰富。我本可以收集几千张照片,但如果那个“魔法提示词”真的带来了巨大提升,哪怕只有几百张样本也应该能体现出来。如果有人愿意花一百美元做一个更精细的地理定位基准测试,而不是像我这样只花十五美元,我觉得这会是个有趣的项目。

最后,我们用基准测试来回答一个我一直以来的疑问:gpt-5.4 和 gpt-5.5 是否具备 o3 那样的地理定位能力?答案显然是否定的。

让 o3 在这类任务上表现出色的特性,并未延续到更新的模型中。

  • 基准测试也可能误导人,但它们总比凭感觉靠谱。 ↩
  • 如果你喜欢这篇文章,欢迎订阅我的邮件更新,或把它分享到 Hacker News。

    这里是一篇相关预告,标签与此文部分重合。

    提示词也是技术债务 说“所有代码都是技术债务”既常见又正确。为了开发新功能而添加代码是一种必要的恶:你几乎总是不得不这么做,但每行新增代码都会增加系统的复杂性和维护负担。未来任何改动都必须兼容现有代码,或者至少不破坏它。一旦系统积累太多代码,单个开发者就无法完全理解其全貌:你不再能直接读代码就能明白它的作用,而必须依赖猜测、理论和启发式方法。明智的工程师会尽量少写代码。继续阅读全文……

    需要完整排版与评论请前往来源站点阅读。