AIエージェントの時代が到来しました。ChatGPTは、他のソースから収集した大量のデータから合成された、自信たっぷりで、しばしば大きく的外れな回答で質問に答えるだけのツールではなくなりました。これからはアプリに接続し、チケットの予約、料金の検索、カレンダーの確認、スライドショーの作成など、実際のアクションを実行できるようになります。
この新しいサービスは「ChatGPT Agent」と呼ばれ、会話の中でAIボットに専用の仮想コンピューターを提供するというものです。OpenAIによると、ボットは「ユーザーの指示に基づいて、複雑なワークフローを最初から最後まで処理するために、推論と行動をスムーズに切り替えます」とされていますが、これは野心的で、少し怖い話のようにも聞こえます。
ChatGPTが提供する有料プラン(月額20ドルから)をご利用の場合は、今すぐエージェントをお試しいただけます。そこで、架空のプロジェクトでいくつかテストしてみることにしました(まだ実際のプロジェクトで信頼できるかどうかは分かりませんが)。WebアプリでChatGPTエージェントを起動するには、プロンプトボックスの左側にある「 +」 (プラス)ボタンをクリックしてエージェントモードを選択します。
エージェントモードの仕組み
エージェントモードに入っても、特に劇的な変化はありません。ChatGPTに実行してほしいタスクを説明するだけです。プロンプトに関するガイドラインはありません。画面には、ニュースの要約から食料品の注文まで、いくつかの提案が表示されます。
ChatGPTに何をさせたいかを決めたら、より明確にするために追加の質問がされることがあります。インターフェースはAIボットとの通常の会話とそれほど変わりません。異なるのは、ChatGPTが自身の仮想コンピューター上で何をしているかを大まかに把握できる埋め込みウィンドウがあることです。
いつでも好きな時に飛び込んでコントロールできます。 クレジット:Lifehacker
直接的なライブフィードではありませんが、ChatGPTは現在の動作を通知し、各アクションを表すグラフィックを表示します。フィードはいつでも巻き戻したり、ChatGPTのコンピューターを操作したりすることができます。その場合、まるで別のPCにリモート接続しているかのように、ChatGPTが何をしているのかを正確に確認できます。
アクティビティモードに切り替えることもできます。このモードでは、ChatGPTが実行しているステップが、画像なしでテキストフィードでスクロール表示されます。エージェントが軌道から外れたり、望ましくない動作をしていると感じた場合は、いつでもエージェントを停止できます。数回クリックするだけで停止できます。
エージェントは通常のChatGPT形式で結果を表示します。 クレジット:Lifehacker
ChatGPTエージェントが依頼されたすべての作業を完了すると、概要とレポートが表示されます。また、ChatGPTの会話では通常通り、最終応答の下部にソースのリストが表示され、必要に応じてフォローアップの質問をすることもできます。
全体的にはエージェントはうまく機能しますが、時間がかかる場合があります。ディープリサーチツールと同様に、エージェントを設定したらしばらく他の作業をした方が良いでしょう。つまり、ChatGPTが行うすべてのステップを監視して確認することはできないため、どの程度信頼できるかを判断する必要があります。
ChatGPTエージェント実験の成果
ChatGPTに最初に頼んだのは、誕生日パーティーのプランニングでした。自分の年齢、どんなパーティーにしたいか(静かで控えめなパーティー)、どんな場所がいいか(バーの隣の小さな部屋)、そしてデートの相手候補を伝えました。また、招待状もAIに作ってもらいました。
これまでのところどう思いますか?
全体的に見て、このボットはかなり良い仕事をしてくれました。私が自分で選んだであろう地元の会場も特定してくれましたが、予約情報の取得で少し問題が発生しました(WebからPDFを開くのがうまくいかなかったようです)。招待状のイラストと文面は、少しありきたりな感じはありましたが、問題なく、最終レポートにはパーティーの開催場所を選ぶのに役立つ分かりやすい比較表と、予約用の連絡先が記載されていました。
ChatGPT Agentの活動状況をライブフィードで確認できます。 クレジット:Lifehacker
次の実験では、ChatGPT Agentを使って、iPhoneの発売日をすべて網羅した、きれいにフォーマットされたスプレッドシートを作成してみました。これは本当に仕事に役立ち、時間の節約にもなります。ここでの大きなプラスポイントは、ChatGPTがWikipedia、Appleのプレスリリース、MacRumorsなどのサイトなど、信頼できる情報源を的確に識別できたことです。
最終的なスプレッドシートは、私が見る限り完全に正確で、Excelスプレッドシートで提供されました。私が依頼したような美しいフォーマットは得られず、ソース列も意味不明でしたが、主要なデータはすべて揃っていました。ただし、コンパイルにはかなり時間がかかり、おそらく自分でも同じ時間でできたと思います(ただし、ChatGPTが動作している間は他の作業を行うことができました)。
テキストベースのフィードビューも利用可能。 クレジット:Lifehacker
ChatGPT Agentの洗練性と機能性に感銘を受けました。完璧ではありませんでしたが、ほとんどの場合、適切な手順でタスクを切り替えてくれました。動作の透明性も高く、必要に応じていつでも制御できます。
とはいえ、個人的には、こういった作業は自分でやりたいと思っています。ChatGPT Agentがミスをしたり、細かい点を見落としたり、ニュアンスを理解しなかったりするのではないかと心配で、あまり頼りたくないのです。こうした懸念に対する基準は人それぞれ異なるでしょうし、Agentが時間を節約してくれるため、小さな問題を見過ごしてしまうユーザーも多いのではないかと思います。