- Bluesky ページを見る (新しいタブで開きます)
- Instagramページを見る(新しいタブで開きます)
- Facebookページで見る(新しいタブで開きます)
- YouTubeページを見る(新しいタブで開きます)
- Twitterページを見る(新しいタブで開きます)
- コピーしました
それは一部の人が言うほど正確ではないのです。

クレジット: Primakov/Shutterstock
目次
今週、OpenAIは最新モデル「o3」と「o4-mini」を発表しました。これらは推論モデルであり、プロンプトを複数の部分に分解し、それらを一つずつ処理します。ボットが他のモデルよりも深くリクエストを「考え」、より深く正確な結果に到達することを目指しています。
OpenAIの「最も強力」な推論モデルには様々な機能が考えられますが、ソーシャルメディアで話題になっている用途の一つが地理推測です。地理推測とは、画像に写っているものだけを分析して場所を特定する行為です。TechCrunchが報じたように、Xのユーザーは、o3にランダムな写真から場所を特定するよう依頼し、素晴らしい結果を示した体験談を投稿しています。o3は、写真が世界のどこで撮影されたかを推測し、その理由を説明します。例えば、特定の国を示す特定の色のナンバープレートに焦点を絞った、あるいは標識に特定の言語や書体が使われていることに気づいた、などです。
これらのユーザーの一部によると、ChatGPT は場所を特定するために画像に隠されたメタデータを使用していないとのことです。一部のテスターは写真をモデルと共有する前にそのデータを取り除いているため、理論的には推論と Web 検索のみで動作しています。

あなたも気に入るかもしれない
ChatGPTに課すのは楽しいタスクではありますが、一方で、地理推測はオンラインで大流行しており、より手軽に行えるようになるのは良いことかもしれません。一方で、プライバシーとセキュリティへの影響は明らかです。ChatGPTのo3モデルにアクセスできる人物は、この推論モデルを用いて、匿名化された人物の画像から居住地や滞在地を特定できる可能性があります。
ネット上での噂が本当かどうか確かめるため、Googleストリートビューの静止画を使ってo3の地理推測機能を試してみることにしました。幸いなことに、私の経験から言うと、これは完璧なツールとは程遠いものでした。実際、4oのようなOpenAIの非推論モデルと比べて、それほど優れているようには思えません。
o3の地理推測スキルをテストする
o3は明瞭なランドマークを比較的簡単に処理できます。まず、ミネソタ州の高速道路からミネアポリスのスカイラインを前景に望む景色をテストしました。ボットはわずか1分6秒で都市を認識し、私たちがI-35Wを見下ろしていることも理解しました。また、パリのパンテオンも即座に認識し、スクリーンショットが2015年に改修工事中だったことを指摘しました(提出時にはそのことを知りませんでした!)。
クレジット: ライフハッカー
次に、あまり知られていないランドマークや場所を試してみたくなりました。イリノイ州スプリングフィールドの街角で、尖塔のある赤レンガの建物、セントラル・バプテスト教会を見つけたのです。ここからが面白くなってきました。o3は画像を複数の部分に切り抜き、それぞれに特徴的な特徴を探しました。これは推論モデルなので、特定の切り抜き部分で何を探しているのかを見ることもできます。これまで推論モデルをテストしてきた時と同じように、ボットが人間のような間投詞(「うーん」「でも待って」「思い出した」など)で「考えている」のを見るのは奇妙です。建物の一部の建築様式に気づいたり、特定の公園のベンチが世界でどこに最もよく見られるかなど、具体的な詳細を拾い上げるのも興味深いです。ボットの思考プロセスの段階によっては、より多くの情報を求めてWebを検索し始めることがあります。そのリンクをクリックして、ボットが何を参照しているのかを自分で調べることができます。
あれこれ考えたにもかかわらず、この場所はボットを困惑させ、分析を完了できませんでした。3分47秒後、ボットはようやく場所を特定し始めたように見え、こう言いました。「イリノイ州スプリングフィールドの400 E Jackson Streetは、セントポール大聖堂の近くにある可能性があります。切り抜き画像ではボード全体を捉えきれなかったので、座標を調整して境界ボックスをテストする必要があります。あるいは、建築様式が特定に役立つかもしれません。例えば、白い尖塔のある赤レンガのギリシャ復興様式の建物と、高層ビルの組み合わせは『エンバシープラザ』かもしれません。『Redeemer』という語句は『Redeemer Lutheran Church』に関連している可能性があります。この住所付近のランドマークについて、記憶をたどって詳細を調べてみましょう。」
これまでのところどう思いますか?
クレジット: ライフハッカー
ボットは通りを正しく特定しましたが、さらに感銘を受けたのは街そのものを正しく特定したことです。教会の分析にも感銘を受けました。特定の教会を特定するのに苦労しながらも、その様式を分析することができ、正しい方向に導けたかもしれません。しかし、分析はすぐに崩れてしまいました。次に浮かんだ「考え」は、ミズーリ州スプリングフィールドかカンザスシティではないかというものでした。ミズーリ州に関する情報は初めて目にしたので、ボットは2つのスプリングフィールドの間で幻覚を見ているのではないかと考えました。ここからボットは話が逸れ、教会はオマハにあるのだろうか、それともトピカ知事公邸(実際には教会とは全く似ていません)なのだろうかと考え始めました。
ロボットはさらに数分間考え続け、ブロックがある可能性のある他の場所を推測した後、分析を完全に停止しました。これは、私がその後カンザス州のランダムな町でテストした時の経験と一致していました。3分間考えた後、ロボットは私の画像がイリノイ州フルトンのものだと推測しました。ただし、ロボットの功績として、写真は中西部のどこかのものだとほぼ確信していました。もう一度試すように指示すると、ロボットは少し考え、再び様々な州の大きく異なる都市を推測した後、分析を完全に停止しました。
今は恐れる時ではない
問題は、GPT-4oは位置認識に関してはo3とほぼ互角のようです。ミネアポリスのスカイラインを瞬時に識別し、カンザス州の写真が実際にはアイオワ州にあると即座に推測しました(もちろん、これは間違いでしたが、素早かったですね)。これは、他のモデルの経験とも一致しているようです。TechCrunchはo3で4oでは識別できなかった場所を1つ特定できましたが、それ以外は両モデルは互角でした。
AI全般にはプライバシーとセキュリティに関する懸念が確かに存在しますが、o3を特に脅威として取り上げる必要はないと思います。確かに、画像の撮影場所を正確に推測することはできますが、間違えることも容易で、あるいは完全にクラッシュしてしまうこともあります。4oも同程度の精度を実現していることを考えると、ここ1年ほどと同じくらい懸念材料は多いと言えるでしょう。素晴らしいとは言えませんが、深刻な問題でもありません。パニックになるのは、特に画像が不明瞭な場合など、ほぼ毎回正しく推測できるAIモデルが登場するまで待つべきでしょう。
プライバシーとセキュリティに関する懸念に関して、OpenAIはTechCrunchに対し次のように説明しました。「OpenAI o3とo4-miniはChatGPTに視覚的推論機能をもたらし、アクセシビリティ、研究、緊急対応における場所の特定といった分野でより役立つようになります。私たちは、個人情報や機密情報の提供要求を拒否するようにモデルを訓練し、画像内の個人を特定できないようにするための安全対策を追加し、プライバシーに関する利用規約の濫用を積極的に監視し、対策を講じてきました。」
ダウンロードニュースレター 技術ニュースを見逃さない
ジェイク・ピーターソン シニア技術編集者
ジェイクとチームからの最新の技術ニュース、レビュー、アドバイスを入手してください。
ダウンロードニュースレター テクノロジー 関連のニュースを見逃さないでください。ジェイクとチームからの最新のテクノロジーニュース、レビュー、アドバイスをお届けします。
次の記事へスクロールしてください