ChatGPTが思考プロセスを表示するようになりました

ChatGPTが思考プロセスを表示するようになりました
ChatGPTが思考プロセスを表示するようになりました

ライフハッカーのロゴ

  • Bluesky ページを見る (新しいタブで開きます)
  • Instagramページを見る(新しいタブで開きます)
  • Facebookページで見る(新しいタブで開きます)
  • YouTubeページを見る(新しいタブで開きます)
  • Twitterページを見る(新しいタブで開きます)
  • コピーしました

OpenAI の新しい o1 モデルは、その考え方をお見せしたいと考えています。

o1-プレビュードロップダウンメニュー

クレジット: OpenAI/YouTube

目次


OpenAIの最新生成AIモデル「o1」が登場しました。同社は木曜日にo1-previewとo1-miniを発表し、GPTの命名規則からの脱却を示しました。これには十分な理由があります。OpenAIによると、o1は他のモデルとは異なり、結果を返す前に問題を「考える」時間をより多く費やすように設計されており、問題をどのように解決したかを示す機能も備えているとのこと。

OpenAIの発表によると、この新しい「思考プロセス」は、モデルが新しい戦術を試し、間違いを深く考えるのに役立つとのことです。同社によると、o1は生物学、化学、物理学において「博士課程の学生と同等」の成績を収めているとのことです。GPT-4oが国際数学オリンピックの問題の13%を解いたのに対し、o1は83%を解いたと報告されています。同社はまた、これらのモデルがコーディングとプログラミングにおいてより効果的であることを強調しました。この「思考」とは、o1が以前のモデルよりも応答に時間がかかることを意味します。

OpenAIの研究リーダーであるジェリー・トゥオレク氏がThe Vergeに語ったところによると、o1は強化学習によって訓練される。訓練データからパターンを探すのではなく、「報酬とペナルティ」を通して学習する。OpenAIは具体的な学習方法については明らかにしていないが、この新しい思考モデルは以前のモデルよりも幻覚を起こしにくいと述べている。ただし、幻覚を起こすことは依然としてあるという。

ライフハッカーのロゴ

あなたも気に入るかもしれない

o1には2つのバージョンがあります。o1-previewはフルパワー版、o1-miniは同様のフレームワークでトレーニングされた軽量版です。同社はこれらのモデルを開発段階の早い段階で出荷すると報じており、そのためウェブアクセスやファイル・画像のアップロードといった標準的なGPT機能は搭載されていないと述べています。

o1-preview はホットドッグをサンドイッチだと思っているのでしょうか?

正直に言うと、私はプログラマーではありませんし、日々高度な数学の問題を解く必要もありません。そのため、OpenAIの最新モデルが提案する強みやユースケースを適切にテストすることは困難です。技術者ではない私にとって、o1-previewの思考プロセスは高く評価できます。新しいモデルにプロンプ​​トを出すと、質問に回答しながらフィードバックメッセージが表示されるようになりました(例:「考え中…」)。完了すると、予想通りの結果が表示されますが、上部にドロップダウンメニューが表示されます。

私はOpenAIが提案する「ホットドッグはサンドイッチですか?」という質問を使ったのですが、その答えの前に「4秒間考えてください」というメッセージが表示されました。(ちなみに、その答えは「場合による」という3段落に及んでいました。)

とにかく、「4秒間考える」というドロップダウンをクリックすると、モデルの推論結果を見ることができました。このプロンプトでは、モデルはプロセスを2つの部分に分割していました。最初の「質問の分析」には、「わかりました。見てみましょう。ホットドッグがサンドイッチかどうかという質問には、意味を理解し、OpenAIのポリシーを考慮し、正確性を重視し、個人的な意見や禁止されているコンテンツを避ける必要があります。」と書かれています。2番目の「定義の検討」には、「定義と文化的見解を検討することで、ホットドッグがサンドイッチかどうかを検討しています。これは議論の余地があることを示しています。」と書かれています。質問に答えるために必要な思考はこれだけだったのでしょう。

タコスはどうですか?それはサンドイッチですか?

私はo1に、食べ物に関するもう一つの議論の的となっている問題についても意見を求めました。「タコスはサンドイッチか?」モデルには言いたいことが山ほどあります。

AIは5秒間考えた後、364語の回答を返しました。その思考プロセスには、定義への焦点、定義の明確化(「タコスを主な材料であるトルティーヤ、フィリング、ソースで定義しています。これは、タコスがサンドイッチの定義に当てはまるかどうかを判断するのに役立ちます。」)、そして視点の検討(「タコスとサンドイッチの分類を検討し、それぞれの料理上の違いを強調しています。タコスはトルティーヤを使用し、サンドイッチはパンを使用します。タコスはメキシコ料理の文化的ルーツを持ち、サンドイッチはヨーロッパの影響をうけています。」)が含まれていました。

これは「議論の余地のあるテーマ」だと認めつつ、答えは料理の伝統、文化的背景、さらには法的解釈による定義に左右されると論じ、「主な違い」(具体的には、タコスにはパンがなく、サンドイッチはパンの間に具材を挟むのに対し、タコスはトルティーヤの上に具材を挟む)を検討した。

あらゆる要素を考慮し、o1は「ほとんどの料理専門家や食通」によるとタコスはサンドイッチではないと結論付けました。さらに、ブリトーはサンドイッチではないと判事が判決を下した判例も引用しています。(興味のある方は、こちらの文脈をご覧ください。)

でもタコスはホットドッグですか?

続いて、o1にタコスをホットドッグに分類するかどうか尋ねてみた。9秒後、o1は明確な答えを返した。「タコスもホットドッグもパンまたはパンのような生地に具材を挟むという点では共通しているが、同じではなく、異なる料理のカテゴリーに属する」。インターネットの皆さん、これで決まりです。もうこれ以上議論する必要はありません。

これまでのところどう思いますか?

o1はサンドイッチに関連しないより複雑なタスクも処理できます

もう一つ試してみましょう。OpenAIが提案した2つ目のプロンプト、「6x6のノノグラムパズルを生成してください。解いたグリッドは文字Qのように見えます。」を選択しました。

より要求の厳しいリクエストなので当然のことながら、o1-preview はこのタスクの処理に時間がかかりました。正確には84秒です。o1-preview は、まさにそのようなパズルと、その解き方の説明を提供しました。ドロップダウンメニューをクリックすると、プロンプトに沿って36個の思考プロセスを経て処理が進みました。「パズルの作成」では、ボットは「解答にQの文字が現れる6x6のノノグラムを作成するプロセスを考えています。グリッドを設計し、ヒントを導き出し、パズルを解くための提示が必要です」と述べました。次に、画像にQの「尻尾」をどのように組み込むかを考えます。尻尾を追加するには、レイアウトの一番下の行を調整する必要があると判断し、パズルの組み立て方を考え続けます。

o1-preview の各ステップをスクロールしていくのは実に興味深い。OpenAI はモデルに対し、「考えている」という表現に「OK」「うーん」「気になるんだけど」といった単語やフレーズを使うように訓練したようだ。おそらく、モデルの発音をより人間らしくするためだろう。(本当にAIに求めているのはそういうことなのだろうか?)しかし、リクエストが単純すぎて、モデルが数秒で​​解決してしまうような場合は、その作業内容は表示されない。

まだ初期段階なので、o1が従来のAIモデルと比べて飛躍的な進歩を遂げているかどうかは判断が難しい。この新しい「思考」が、テキストがAIによって生成されたかどうかを判断する際の一般的な特徴を本当に改善できるかどうかを見極める必要がある。

OpenAIのo1モデルを試す方法

これらの新しいモデルは現在ご利用いただけますが、お試しいただくには対象ユーザーである必要があります。対象ユーザーとは、ChatGPT PlusまたはChatGPT Teamのサブスクリプションにご加入いただいているユーザーです。ChatGPT EnterpriseまたはChatGPT Edをご利用の場合は、来週にはモデルが公開される予定です。ChatGPTの無料ユーザーは、将来的にo1-miniをご利用いただけるようになります。

これらのサブスクリプションをお持ちの場合は、チャット開始時にモデルのドロップダウンメニューからo1-previewとo1-miniを選択できます。OpenAIによると、リリース時の週当たりのレート制限は、o1-previewが30メッセージ、o1-miniが50メッセージです。これらのモデルを頻繁にテストする予定がある場合は、初日にすべてのメッセージを無駄にする前に、この点に留意してください。

ダウンロードニュースレター 技術ニュースを見逃さない

ジェイク・ピーターソンのポートレート ジェイク・ピーターソン シニア技術編集者

ジェイクとチームからの最新の技術ニュース、レビュー、アドバイスを入手してください。

ダウンロードニュースレター テクノロジー 関連のニュースを見逃さないでください。ジェイクとチームからの最新のテクノロジーニュース、レビュー、アドバイスをお届けします。

次の記事へスクロールしてください