ChatGPTはついに見ることができる

ChatGPTはついに見ることができる
ChatGPTはついに見ることができる

ライフハッカーのロゴ

  • Bluesky ページを見る (新しいタブで開きます)
  • Instagramページを見る(新しいタブで開きます)
  • Facebookページで見る(新しいタブで開きます)
  • YouTubeページを見る(新しいタブで開きます)
  • Twitterページを見る(新しいタブで開きます)
  • コピーしました

7 か月後、高度な音声モードが実現しました。

OpenAI、ChatGPTの高度な音声モードビジョンのデモを実施

クレジット: OpenAI/YouTube

目次


OpenAIは数ヶ月にわたるテストを経て、9月にChatGPTの「高度な音声」モードをリリースしました。この機能を使うと、ChatGPTとリアルタイムで会話できます。ボットの「会話」を中断して別の質問をすることもできます。ボットはあなたの声のトーンを理解し、それに基づいて返答や抑揚を決定します。(笑うととても不気味です。)

しかし、高度な音声モードには、ローンチ以来欠けている機能が1つあります。OpenAIが5月にこの機能を初めて発表した際、ChatGPTがカメラにアクセスし、周囲の世界を「見る」ことができることを披露しました。ボットとのチャット中にカメラを何かに向け、質問すると、ChatGPTが可能な限り正確に答えます。それから7ヶ月後、この機能はついに実現し、驚くほど素晴らしいものとなっています。

この機能にアクセスするには、ChatGPTの有料サブスクリプション(Plus(月額20ドル)またはPro(月額200ドル))が必要です。ChatGPT Teamのサブスクリプションメンバーも対象となります。OpenAIが段階的にこの機能を展開しているため、料金をお支払いいただいても、すぐにご利用いただけない場合があります。

ライフハッカーのロゴ

あなたも気に入るかもしれない

ChatGPTの高度な音声モードのビジョン機能をテストする

アカウントにカメラが展開されると、アクセスは非常に簡単です。チャット画面の右下にある波形アイコンを使って、いつもと同じように高度な音声モードを起動します。すると、新しいカメラアイコンが表示され、もちろんライブカメラフィードが起動します。これはチャットを中断しません。ChatGPTとの会話の途中でもカメラを起動し、会話を続けることができます。ただし、今度はカメラフィードが会話の一部になります。

初めてこのツールを使った時は、近くにあったNintendo Switchの箱にカメラを向け、iPhoneのケーブルとMagic Trackpadをその上に乗せて「これは何ですか?」と尋ねました。ChatGPTは「Nintendo SwitchのOLEDボックスの上にケーブルがいくつか通っていて、ノートパソコンが載っているようです。セットアップする予定ですか?」と答えました。3回のうち2回は正解でした。トラックパッドをノートパソコンと間違えたようですが、まあ、ほぼ正解です。次に、水筒にカメラを向け、ハイライトしているものを識別するように頼みました。「黒いHydro Flaskのボトルのようですね。飲み物を冷たくしたり温めたりするのに最適です!よく持ち歩いていますか?」

続けてこう尋ねました。「これはHydro Flaskのどのモデルか分かりますか?」ChatGPT:「正確なモデルは分かりませんが、広口ボトルのようです。おそらく32オンスくらいです。飲み物を何時間も適温に保つように設計されているのは間違いありません。」それは…基本的に正しいですね。ChatGPTがサイズを正確に推測するのは、私もあまり納得がいきません。

ChatGPTは正確に、自分のキーボードはApple Magic Keyboardだと答えました。どのキーが見えるかを尋ねると、画面に映っているキーのうちいくつか(全部ではない)を答えました。そこで、いくつのキーが見えるかを尋ねると、「約30個」と答えましたが、実際には26個ありました。つまり、これもまた、近い数字です。

MacBookのMagSafeポート、2つのUSBポート、そしてその右側にあるヘッドホンジャックも認識できました。天井の通気口や、玄関に置いてあるブーツの種類も認識しました。トラックパッドを除いて、テストしたデバイスは基本的にすべて認識してくれました。

これまでのところどう思いますか?

高度な音声モードの視界は速い

しかし、何よりも驚いたのは、応答の速さでした。ChatGPTに何かを識別するように頼むと、実際に人間に頼むよりも速く応答してくれます。時には、ボットが言葉を少しの間保留することもありました(例えば「それは…だと思う」)。これはおそらく、ChatGPTに残りの言葉を処理させるためのトリックでしょう。また、最初の応答で自信がなさそうに返ってきたのも印象的でした。Magic Mouseを向けると、最初はコンピューターのマウスだと推測しました。しかし、ブランド名を尋ねると、Appleとだけ答えただけでなく、「洗練されたデザイン」と「タッチセンサー式の表面」で知られるApple Magic Mouseだと答えました。

とはいえ、総合的に見て、これらの反応はほぼ瞬時に返ってくることが多く、これはOpenAIのモデルがいかに強力であるかを物語っています。私は今でもAIに懐疑的な方ですが、これは久しぶりに感銘を受けた展開であり、そのことについてどう感じているか、複雑な気持ちです。

一方で、この技術が良い方向に使われる可能性も考えられます。視覚に障がいのある方、特にスマートグラスのような便利なデバイスで、このような技術がどれほど役立つか想像してみてください。AIアシスタントに自分が向いている方向を尋ねたり、レストランのメニューを読んだり、道路を渡っても安全かどうかを確認したりできるようになるかもしれません。このような技術は検索をより良い方向に変え、スマートフォンのカメラを被写体に向けるだけで、世界について新しいことを学ぶことを容易にするでしょう。

一方で、AIは依然として幻覚に陥りやすいという点を考えると、私の考えはネガティブに傾きます。この技術を利用する人が増えれば増えるほど、AIが犯すミスを経験することは避けられなくなります。そして、ボットに頼って作業をしている場合、特に安全に関わる作業であれば、幻覚は危険なものになり得ます。私は大きなエラーは経験していません。トラックパッドの誤操作だけです。アンダーソン・クーパーは、ボットが幾何学の問題でミスを犯したことを発見しました(これも大きな問題ではありません)。しかし、この技術が急速に進歩するにつれて、その固有の欠陥が失敗のリスクを高めることを改めて認識させてくれます。

おそらくそれが、ライブカメラセッションのたびに、この機能を安全に関わる用途には使用しないよう警告される理由でしょう。

ダウンロードニュースレター 技術ニュースを見逃さない

ジェイク・ピーターソンのポートレート ジェイク・ピーターソン シニア技術編集者

ジェイクとチームからの最新の技術ニュース、レビュー、アドバイスを入手してください。

ダウンロードニュースレター テクノロジー 関連のニュースを見逃さないでください。ジェイクとチームからの最新のテクノロジーニュース、レビュー、アドバイスをお届けします。

次の記事へスクロールしてください