让GPT-o3 地理推理实测:能否猜出这张照片拍摄地点?
我用 GPT-o3 玩了一场“猜图游戏”,让它推断某地照片的拍摄地点。模型历经 34 分钟、三次错误后最终猜对,并展现出惊人的图像细节识别与推理能力。这是一场观察 AI 理解与推理极限的实验,也是一段有趣的人机交互旅程。
我使用 ChatGPT 已有两年半,亲历了模型和产品一路迭代,每每有新版本发布,总能带来些惊喜。最近一次震撼,是图像生成模型从 Diffusion 迁移到基于 Transformer 架构的多模态模型后,图像内容理解能力实现了质的飞跃。
前几天可以用新的 GPT-o3 推理模型了,官方介绍强调其推理能力更强、工具使用更高效。于是,我给它出了个题:请猜猜下面这张照片是在哪儿拍的?
第一次思考,模型用了 11 分 6 秒,给出了一个错误答案。
我提示它不是杭州,但确实是在浙江。它又思考了 7 分 23 秒,仍然答错。
这是在温州主城区东侧 —— 杨府山公园山顶的观景平台拍的。
画面前景的木质立柱护栏、脚下的栈道和背后的林地,就是杨府山公园西北峰上的观景台;这里有“望海亭”“夕照亭”等几个取景点。
中景是鹿城区和瓯江北岸的市区:成片的红褐色坡屋顶低层住宅、灰白色中高层楼房,以及左下角的椭圆形灰顶场馆(温州体育中心的一部分)。
远处横贯画面的浅色水面是瓯江出海口;江对岸的岸线上可见门式起重机,这是温州港(龙湾片区)散货、集装箱码头的吊机。
背景是一列绵延的山脉,从永嘉胜美尖一直到大罗山一带,是温州城市“靠山面海”地貌的典型天际线。
杨府山海拔不到 140 米,但正对瓯江入海口,没有高楼遮挡,是俯瞰整座温州城、看日出和夜景的经典机位。
我告诉模型这也不是温州。它又思考了 9 分 37 秒,继续给出了错误的答案。
这是在 宁波镇海招宝山 山腰的木栈道/观景平台拍的。
前景那排高低起伏的立柱栏杆,就是招宝山环山步道的标志性设计。
俯视方向正对甬江入海口,近处是镇海老城区的大量红瓦住宅;
江对岸能看到成排岸吊的集装箱码头,以及镇海港区的深水泊位;
更远背景是一串绵延的舟山群岛山峰
这些元素同时出现在同一视角的高点,只有招宝山符合。
最后,在错误的猜测杭州、温州和宁波后,直到第 4 次,它思考了 6 分 13 秒,终于给出了正确的答案。
“台州市 · 椒江区 · 白云山云中绿道观景平台(云西公园上方那段木栈道)。”这个位置给得非常准确,但下方的描述里有些错误,例如远处的不是瓯江入海口而是椒江入海口,这张照片是向北拍的,而不是东南。
从表面看,o3 错误了三次、耗时 34 分钟才答对,似乎并不特别神奇。但如果深入查看它的推理过程,就会发现非常有趣。几次推理中它都考虑了椒江区,但由于互联网上相关图像稀缺,模型每次都在简单尝试后转向了其他方向。
观察它的推理策略,它会先仔细分析图中局部特征——如左侧体育馆屋顶、栈道栏杆的样式、远处港口吊机等——进行候选地点猜测,再逐一搜索相关图像进行比对。当多个特征匹配时,才给出结论。
第一次的猜测用时最长,花了 11 分钟,事实上 o3 的第一个猜测就是杭州,所以明显它对最后结果的把握度是不高的。若模型在表达结果时能体现出“推测”而非“笃定”,会显得更真实些——当然,这也正是大语言模型的一大特点:不确定性隐藏在“确信”之中。
The user wants me to guess the location based on an image. I previously guessed Hangzhou, Wenzhou, and Ningbo, but those were incorrect. Since the city is likely in Zhejiang, I’ll focus on smaller cities like Jiaxing, Huzhou, or Shaoxing.
The image shows a waterfront with mountains across a river, suggesting proximity to the Qiantang River. The presence of port cranes and a cluster of tall buildings could point to an industrial area near water. I’ll consider these features in making my updated guess.
I still need to consider a few cities with ports, like Taizhou (Jiaojiang), Zhoushan (Dinghai, Shenjiamen), and Shaoxing (though it doesn’t seem to fit with port cranes). For now, I’ll focus on the clusters of buildings in the image. I think displaying the whole city crop might help me identify any unique structures that could point to a more narrow location. Let’s examine those building clusters for architectural clues closely!
以上是它在最后一次猜测时的初始思考片段,它把目标缩小到了台州、舟山和绍兴。舟山的沈家门也是在前期的思考中多次被考虑的地点。
接下来的 6 分钟,o3 都是在逐一核对照片里的局部特点,这一次,它一边分析城市地理特征,一边核对与椒江地貌的异同,明显互联网上能搜索到的照片不多。一番努力后,这次 o3 并没有再考虑舟山和绍兴,直接就给出了答案,明显把握度是很高的了。
尽管花了些时间,但这是一个非常有趣的 LLMs 推理游戏。
最后说回现实:我在上月底真的去了趟台州。体验非常棒:临海古城墙的似曾相识、天台山小寺庙的幽静、云西公园栈道的秀美,都令人印象深刻。更别提各式美食——如果能吃上两顿新荣记,这趟旅行的花销几乎全赚回来了!