Google I/O 2024のキックオフ基調講演では、全体的な雰囲気は「延期してもらえませんか?」というものだったようです。Googleが約束したAIの改善は間違いなくここで中心的な位置を占めていますが、いくつかの例外を除いて、ほとんどはまだ検討中です。
それほど驚くことではありません。これは開発者会議ですからね。しかし、消費者が約束された「Her」の瞬間を迎えるまでには、もう少し待たなければならないようです。Googleの新機能が登場し始めたら、何が期待できるでしょうか。
Google検索におけるAI
クレジット: Google/YouTube
おそらくほとんどの人にとって最もインパクトのある追加機能は、Google検索におけるGeminiの統合の拡張でしょう。GoogleはすでにSearch Labsに「生成検索」機能を提供しており、1~2段落程度の短い文章を素早く入力できましたが、まもなく拡張版である「AI概要」が誰でも利用できるようになります。
オプションとして、検索時にAIオーバービューはクエリに応じて複数の段落の情報(小見出し付き)を生成できます。また、従来のオーバービューよりも詳細なコンテキストを提供し、より詳細なプロンプトにも対応します。
たとえば、天気の良い日当たりの良い地域に住んでいて、「近くのレストラン」を検索すると、概要ではいくつかの基本的な提案が表示されるだけでなく、パティオ席のあるレストランの別のサブ見出しも表示されます。
従来の検索結果ページでは、従来の SEO を避け、非常に具体的なプロンプトに基づいて Web ページをインテリジェントに推奨する「AI 整理された検索結果」を使用できるようになります。
たとえば、Google に「野菜たっぷりでデザートを 2 種類以上含むグルテンフリーの 3 日間の食事プランを作成」と依頼すると、検索ページには複数のサブ見出しが作成され、それぞれの下に適切なレシピへのリンクが表示されます。
Googleは、検索方法にもAIを導入し、マルチモーダル性を重視しています。つまり、テキスト以外の検索にも対応できるということです。具体的には、「ビデオで質問」機能を開発中です。この機能では、スマートフォンのカメラを対象物に向けるだけで、識別や修理のヘルプを尋ねることができ、生成検索によって回答を得ることができます。
Googleは、AI検索結果が基本的にウェブ上の様々なソースからコンテンツを盗用しており、ユーザーが元のソースをクリックする必要もないという批判にどのように対処しているかについては直接言及しなかった。しかし、デモ参加者は、これらの機能はユーザーが自分で確認できる便利なリンクにアクセスできると何度も強調しており、おそらくこうした批判に対抗しているのだろう。
AI概要機能はすでに米国のGoogleユーザー向けに展開されており、AIによる検索結果の整理と動画による質問機能は「今後数週間」内に提供される予定だ。
AIで写真を検索
クレジット: Google/YouTube
開発中のより具体的な機能のもう 1 つは、「Ask Photos」です。これは、マルチモーダル性を活用して、携帯電話に保存されている数百ギガバイトの画像を整理するのに役立ちます。
例えば、娘さんが昨年水泳教室に通っていたのですが、水の中で撮った最初の写真を紛失してしまったとします。そんな時、「写真を聞く」を使えば、「娘さんはいつ泳ぎを習ったの?」と尋ねるだけで、スマートフォンが自動的に「娘さん」を認識し、最初の水泳教室の写真を表示してくれます。
確かに、これは「猫」と入力するだけで写真ライブラリに猫の写真を検索するのと似ていますが、そのアイデアは、Gemini とすでに携帯電話に保存されているデータを活用して、マルチモーダル AI がより詳細な質問をサポートし、より詳細なコンテキストでユーザーの質問を理解することができるというものです。
その他の詳細は不明だが、Ask Photos は「今後数か月以内」にデビューする予定だ。
プロジェクト・アストラ:ポケットに収まるAIエージェント
クレジット: Google/YouTube
ここからは、さらに空想的な話になります。Project Astraは、これまでで最もC-3PO的なAIと言えるでしょう。スマートフォンにGeminiアプリをインストールし、カメラを起動してカメラを向けるだけで、スマートフォンが捉えた映像に基づいて質問やサポートを行えるようになるという構想です。
例えば、スピーカーを指さすと、Astraはそのハードウェアにどんな部品が使われていて、どのように使われているのかを教えてくれます。生命力が疑わしい猫の絵を指さすと、Astraは「シュレーディンガーの猫」と答えて謎を解いてくれます。メガネがどこにあるか尋ねると、Astraが撮影前にメガネを見ていたかどうか教えてくれます。
これはAIにおける古典的な夢と言えるかもしれません。OpenAIが最近発表したGPT-4oと非常によく似ているため、まだ準備が整っていないのも当然です。Astraは「今年後半」にリリースされる予定ですが、興味深いことに、スマートフォンだけでなくARグラスでも動作するはずです。もしかしたら、近いうちにGoogleの新しいウェアラブルが登場するかもしれません。
Robotsがホストするカスタムポッドキャストを作成する
クレジット: Google/YouTube
この機能は、主役というよりは Google の改良された AI モデルの例としてのほうが大きいと思われるため、いつ準備が整うかは不明ですが、Google が I/O で披露した最も印象的な(そしておそらく不安を掻き立てる)デモの 1 つは、AI 音声でホストされるカスタム ポッドキャストの作成でした。
例えば、あなたの息子さんが学校で物理を勉強しているけれど、テキスト学習よりも音声学習を好むとします。Geminiでは、GoogleのNotebookLMアプリにPDFファイルをアップロードし、それについて解説する音声プログラムを作成できるようになるそうです。このアプリは、PDFファイルのトピックについてAIが自然に話す、ポッドキャストのような音声を生成します。
そうすれば、息子さんはいつでもホストに割り込んで説明を求めることができるようになります。
幻覚が大きな懸念事項であることは明らかで、自然主義的な表現は、適切な言葉が見つからないが、少し「気まずい」と感じるかもしれない。しかし、間違いなく素晴らしいショーケースであることは間違いない…もしこれを再現できる日が来たら。
有料機能
クレジット: Google/YouTube
一般的な消費者向けに特別に作られたと思われる他のツールもいくつか開発中ですが、現時点では、それらは Google の有料 Workspace プラン(場合によっては Google One AI Premium)に限定されます。
最も有望なのはGmailとの連携で、これは3つのアプローチを採用しています。1つ目は要約機能で、Gmailのスレッドを読み上げて要点を要約してくれます。これはそれほど目新しいものではありませんが、2つ目はAIが他のメールの情報に基づいて文脈に沿った返信を提案してくれる機能です。
これまでのところどう思いますか?
しかし、Gemini Q&Aは真に革新的なツールのように思えます。例えば、屋根工事を依頼しようとしていて、既に3社の建設会社に見積もり依頼のメールを送っているとします。そして、各社と見積もり価格、そして対応可能な時間などをスプレッドシートにまとめたいとします。各社とのメールを一つ一つ確認する代わりに、Gmailの下部にあるGeminiボックスにスプレッドシートを作成させましょう。GeminiはGmailの受信トレイを検索し、数分でスプレッドシートを作成してくれるので、時間の節約になるだけでなく、見逃したメールを見つけるのにも役立つでしょう。
このようなコンテキストベースのスプレッドシート作成機能はGmail以外のアプリにも導入される予定ですが、Googleは新たに「Virtual Gemini Powered Teammate」を披露しました。まだ初期段階にあるこのWorkspace機能は、典型的なGeminiチャットボックスとAstraを組み合わせたような機能です。SlackのチャットボットにAIエージェントを追加することで、24時間365日体制で質問に答えたり、ドキュメントを作成したりできるようになるという構想です。
Gmail の Gemini を活用した要約機能は今月中に Workspace Labs ユーザー向けに展開され、その他の Gmail 機能は 7 月に Labs に導入される予定です。
宝石
クレジット: Google/YouTube
OpenAIは今年初め、ChatGPTプラグインを「GPT」に置き換え、ユーザーが特定の質問に対応するように設計されたChatGPTチャットボットのカスタムバージョンを作成できるようにしました。Googleはこれに対する答えとしてGemを開発し、比較的似た仕組みで動作します。Geminiインターフェース内にそれぞれ独自のページを持つ複数のGemを作成し、それぞれが特定の指示に答えることができます。Googleのデモでは、エクササイズのアドバイスを提供する「Yoga Bestie」などのGemが提案されていました。
宝石は、数か月先まで日の目を見ないもう 1 つの機能であるため、現時点では GPT を使用する必要があります。
エージェント
クレジット: Google/YouTube
Humane AI PinとRabbit R1への反応が低調だったこともあり、AI愛好家たちはGoogle I/Oでこれらのデバイスが持つ期待、つまり単に情報収集するだけでなく、実際にウェブサイトと対話する能力に対するGeminiの答えが示されることを期待していました。しかし、実際に示されたのは発売日未定の軽い予告だけでした。
Google CEOのサンダー・ピチャイ氏のプレゼンテーションでは、同社が「何歩も先を予測できる」AIエージェントを開発する意向が示されました。例えば、ピチャイ氏は将来、靴の返品をサポートするGoogle AIエージェントの可能性について言及しました。このAIエージェントは、「受信トレイでレシートを探す」から「返品フォームに記入する」、そして「集荷の予約」まで、すべてユーザーの監視下で実行できるようになるでしょう。
これらすべてには大きな注意点がありました。それは、これはデモではなく、Googleが取り組みたいことの単なる一例に過ぎないということです。「もしGeminiがこんなことができたら」というテーマは、イベントのこの部分で大きな役割を果たしました。
新しいGoogle AIモデル
クレジット: Google/YouTube
Googleは特定の機能の強調に加え、新しいAIモデルのリリースと既存のAIモデルのアップデートも宣伝しました。Imagen 3のような生成モデルから、より大規模で文脈的にインテリジェントなGeminiのビルドまで、これらのプレゼンテーションはエンドユーザーよりも開発者向けでしたが、それでもいくつか興味深い点が挙げられます。
注目すべきは、それぞれAIによる動画と音声を生成するVeoとMusic AI Sandboxの導入です。仕組みについてはまだ詳細は不明ですが、Googleはドナルド・グローバーやワイクリフ・ジョンといった大スターを起用し、「誰もが監督になる」や「無限の宝箱を掘り起こす」といった期待のセリフを披露しました。
現時点では、これらの生成モデルの最も優れたデモは、著名人のYouTubeチャンネルに投稿された例です。以下にその一つをご紹介します。
Googleはプレゼンテーションの中で、Gemini 1.5 Proと1.5 Flashについても熱心に語りました。これらはLLMの新バージョンで、主に開発者向けに設計されており、より多くのトークン数をサポートし、より高度なコンテキスト対応を可能にします。これらはおそらくあまり重要ではないかもしれませんが、Gemini Advancedには注目してください。
Gemini Advanced は、Google の有料 Gemini プランとしてすでに販売されており、より多くの質問、Gemini 1.5 Pro との非開発者によるやりとり、Docs などのさまざまなアプリとの統合 (本日発表された Workspace 機能の一部を含むが、すべてではない)、PDF などのファイルのアップロードが可能です。
Googleが約束している機能の中には、Gemini Advancedのサブスクリプションが必要になるものもあるようです。特に、ドキュメントをアップロードしてチャットボットが関連する質問に答えたり、独自のコンテンツで補足したりする機能です。何が無料で何が無料なのかはまだはっきりとは分かりませんが、今回のI/OでGoogleが「私たちにご注目ください」と約束していることを考えると、これは心に留めておくべきもう一つの注意事項と言えるでしょう。
GoogleによるGeminiに関する一般的な発表はこれで終わりです。とはいえ、Androidの新機能「Circle to Search」や、Geminiを使った詐欺検出機能など、新しいAI機能についても発表がありました。(ただし、Android 15に関するニュースではありません。これは明日お伝えします。)