チャットボットの新たな王者が現れた。それはChatGPTではない

Bluesky ページを見る (新しいタブで開きます)
Instagramページを見る（新しいタブで開きます）
Facebookページで見る（新しいタブで開きます）
YouTubeページを見る（新しいタブで開きます）
Twitterページを見る（新しいタブで開きます）

コピーしました

すべては雰囲気次第です。

2024年3月28日

ClaudeとChatGPTのロゴが表示された2台のスマートフォンを持つ手

クレジット: Mojahid Mottakin/Shutterstock

一般の人々に最高のAIモデルは何かと尋ねれば、おそらくほとんどの人がChatGPTと答えるでしょう。2024年現在、AIシーンには多くのプレイヤーが存在します。しかし、真にブレイクスルーを果たし、強力な生成AIを大衆に紹介したのは、OpenAIのLLMです。そして、ChatGPTの大規模言語モデル（LLM）であるGPTは、GPT-3.5の導入からGPT-4、そして現在のGPT-4 Turboに至るまで、同業他社の中で常にトップクラスのパフォーマンスを誇っています。

しかし、流れは変わりつつあるようだ。今週、AnthropicのLLM（法学修士）であるClaude 3 OpusがChatbot Arenaで初めてGPT-4を追い抜き、アプリ開発者のNick Dobos氏は「王は死んだ」と宣言した。本稿執筆時点でのリーダーボードを見ると、Claudeは依然としてGPTを上回っている。Claude 3 OpusのArena Eloランキングは1253、GPT-4-1106-previewは1251、GPT-4-0125-previewは1248と僅差で続いている。

ちなみに、Chatbot Arena ではこれら 3 つの LLM すべてが 1 位にランクされていますが、Claude 3 Opus には若干の優位性があります。

あなたも気に入るかもしれない

Anthropicの他のLLMも好調です。Claude 3 Sonnetはリストの5位にランクインし、GoogleのGemini Pro（どちらも4位）のすぐ下に位置しています。一方、効率的な処理を目的としたAnthropicのローエンドLLMであるClaude 3 Haikuは、GPT-4バージョン0613よりわずかに下ですが、GPT-4バージョン0613よりわずかに上に位置しています。

Chatbot ArenaによるLLMのランキング

Chatbot Arenaでは、現在利用可能な様々なLLMをランク付けするために、ユーザーにプロンプトを入力し、2つの異なる無名のモデルの応答を判定してもらいます。ユーザーはチャットを続けながら2つのモデルの違いを評価し、どちらのモデルが優れていると思うかを判断します。ユーザーはどのモデルを比較しているのかを意識することなく（Claude vs. ChatGPT、Gemini vs. MetaのLlamaなど）、ブランドの好みによるバイアスを排除します。

しかし、他の種類のベンチマークとは異なり、ユーザーが匿名モデルを評価するための真の基準は存在しません。ユーザーは、自分が重視する指標に基づいて、どのLLMのパフォーマンスが優れているかを自ら判断するだけです。AI研究者のサイモン・ウィリソン氏がArs Technicaに語ったように、ユーザーにとってLLMのパフォーマンスが優れていると感じる要素の多くは、他の何よりも「雰囲気」によるものです。ChatGPTよりもクロードの応答の方が気に入ったとしても、それが本当に重要なのです。

これまでのところどう思いますか?

何よりも、これはこれらのLLMがどれほど強力になったかを証明しています。もし何年も前に同じテストを実施していたら、速度、精度、一貫性など、どのLLMが優れているかを特定するために、より標準化されたデータを探していたでしょう。現在、Claude、ChatGPT、Geminiは非常に優れたものになっており、少なくとも一般的な生成AIの用途においては、ほぼ互換性があります。

Claudeが初めてOpenAIのLLMを上回ったことは印象的ですが、GPT-4がこれほど長く持ちこたえてきたことはさらに印象的です。LLM自体はGPT-4 Turboのような反復的なアップデートを除けば1年前にリリースされましたが、Claude 3は今月リリースされました。OpenAIがGPT-5をリリースしたらどうなるかは誰にもわかりません。少なくともある匿名のCEOによると、GPT-5は「…本当に素晴らしい、物質的に優れている」とのことです。現時点では、複数の生成AIモデルが存在し、それぞれがほぼ同等の性能を持っています。

Chatbot Arenaは、これらのLLMのランキング付けに40万票以上の投票を集めました。ぜひご自身でテストを受けて、ランキングにあなたの意見を加えてください。

ダウンロードニュースレター技術ニュースを見逃さない

ジェイク・ピーターソンのポートレートジェイク・ピーターソンシニア技術編集者

ジェイクとチームからの最新の技術ニュース、レビュー、アドバイスを入手してください。

ダウンロードニュースレターテクノロジー関連のニュースを見逃さないでください。ジェイクとチームからの最新のテクノロジーニュース、レビュー、アドバイスをお届けします。

次の記事へスクロールしてください

Mofope

This author has no bio yet.

目次

Chatbot ArenaによるLLMのランキング

Mofope

You May Also Like