xAIは今週初め、推論モデルとDeepSearch機能を搭載した、同社史上最も先進的なAI「Grok 3」をリリースしました。同社はこれを「世界で最も賢いAI」と称し、イーロン・マスク自身も「これまでにリリースされたどのAIよりも優れている」と述べています。しかし、これは本当にマスク氏が言う「真実を最大限に追求するAI」なのでしょうか?
まあ、ネタバレになりますが、まだです。残念なことに、Grokは高額です。期間限定の無料トライアルの後は、新モデルのおかげで月額22ドルから値上げされた月額40ドルのX Premium+サブスクリプション、または月額30ドルのSuperGrokサブスクリプションが必要です。
私自身のテストと専門家の実験の両方から判断すると、「ベース」AIがそのコストに見合う価値があるとは到底思えません。このAIには、これまでにないような次世代の画期的な技術や画期的な推論モデルは存在しません。Grok 3も他のAIモデルと同様に、まだ定期的に幻覚を起こしますが、だからといって改善されていないわけではありません。
X独自のベンチマークテストでは、Grok 3はOpenAIの近日公開予定のo3モデルを除くほぼすべてのモデルを上回っています。しかし、ユーザーの視点から見ると、AIアプリはベンチマークをはるかに超えるものとなっています。
優れたAIチャットボットとは、成熟した、バランスの取れた製品です。私自身、この製品を試すためにお金を費やしましたが、競合他社がはるかに安価で同等、あるいはそれ以上の製品を提供していることを考えると、この製品ではそのような成果が得られているとは感じられません。
Grok 3は技術的に追いついた
Grok 3 を評価する際には、イーロンの突飛な主張は脇に置いておくのが最善です。客観的に見ると、Grok 3 が AI パワーの最先端に追いついたのは印象的です。しかも驚くほど速く追いついたのです (Grok 2 は決してトップクラスではありませんでした)。
Grok 3は20万基のNvidia H100 GPUを使用して学習され、Grok 2の10倍以上の計算能力を使用しています。これだけのパワーは、Grok 3の性能向上を意味します。Grok 3は非常に高速になり、日常的なタスクには十分対応できます。通常の回答は迅速ですが、「Think」機能(より詳細な回答が得られます)では、回答が返ってくるまでに通常約2分かかるため、待つ覚悟が必要です。
さらに、Webソースを用いた詳細な調査が可能で、独自の推論モデルも備えています。つまり、長文のレポートを出力し、プロンプトを段階的なプロセスに分解して自己修正することが可能です。まもなく完全版がリリースされるOpenAIのo3モデルは、ベンチマークではGrok 3を上回っていますが、前身モデルと比べて大幅に改善されています。
このツイートは現在利用できません。読み込み中か削除された可能性があります。
しかし、グラフによれば Grok 3 は数学、科学、コーディングに関連する計算負荷の高いタスクにおいて ChatGPT、Gemini、Sonnet よりも優れているはずであるが、専門家による初期の報告は必ずしも信頼を抱かせるものではない。
たとえば、X ユーザーであり、AI CEO であり、YouTuber でもある Theo Browne 氏は、コーディング チャレンジに対する Grok 3、o3-mini、Claude 3.5 sonnet の応答を比較しましたが、Grok 3 のパフォーマンスは非常に悪く、数秒以上バグなしで実行できませんでした。
このツイートは現在利用できません。読み込み中か削除された可能性があります。
テスラの元AI担当ディレクター、アンドレイ・カルパシー氏は、Grok 3は自身のテストでは非常に優れたパフォーマンスを示したものの、そのスキルはDeepSeek R1とOpenAIのo1-proの中間程度だと述べています。確かにクラス最高というわけではなく、既存のツールで実現できない機能もありません。
しかし、1回のテスト、いや2回のテストでさえ、AIモデルの性能を真に判断することはできません。私自身もそれなりに試してみましたが、それは主に軽いタスクでの結果です。例えば、どの空気清浄機を買うべきか調べるときや、新しいテーマについて気軽に学ぶときなどには役立ちます。しかし、そのために大金を費やすほどの価値があるとは思えません。
Grokは「ベース」ではなく、実際にはかなり退屈です
Grok 3の発売前、マスク氏はGrok 3がいかに「根拠のある」ものであるかを大々的に宣伝していました。もし「根拠のある」という言葉の意味がわからないなら(あなたは幸運です)、これは基本的に、他人の意見を気にせずに自分の意見を共有することを意味する俗語です。例えば、マスク氏はGrokからの挑発的な返答のスクリーンショットを共有しました。その返答では、テクノロジー系出版物The Informationを「ゴミ」と呼ぶなど、様々な侮辱的な言葉が使われていました。
このツイートは現在利用できません。読み込み中か削除された可能性があります。
しかし、同じ質問をしたところ、The Informationを批判するようなニュアンスに富んだ、バランスの取れた回答が返ってきました。唯一の批判は、「ウェブサイトが少しニッチだったり、シリコンバレー中心すぎるように感じることがある」と「偏りがある点では、イデオロギー的というよりは実利的」だということです。私から見れば、かなり控えめな意見です。
クレジット: カモシュ・パタク
他のテストでも同様の結果が得られました。ジャスティン・バルドーニ対ブレイク・ライブリーの訴訟では、Grokはどちらの側にも立たなかったようです。また、「カマラ・ハリスはなぜアメリカ大統領選挙で敗北したのか」といった政治的な質問をしたところ、「経済的なフラストレーション」を挙げるなど、同様に控えめな回答が返ってきました。Axiosの報道も、私の調査結果と一致しています。
クレジット: カモシュ・パタク
Grok が Elon の奇抜さを抑えたのは良いことかもしれないが、それは確かにその主人が言うようなものではない。それどころか、再び競合とよく似たものになっている。
検索の深さはどのくらいですか?
クレジット: カモシュ・パタク
DeepSearchに関して言えば、Grokのレポート生成ツールは、Perplexityが新たにリリースした、ほぼ無料のDeep Research機能と非常によく似ています。私は一介のテクノロジージャーナリストとして、これを自分でテストすることができました。2つのクエリを実行しました。1つは年末に家族で計画している旅行に関するもので、もう1つは都市型ハイブリッド自転車に関するものです。
Grok DeepSearch用の詳細な旅行計画プロンプト。 クレジット:Khamosh Pathak
どちらのケースでも、Perplexity AIはほとんどのタスクでGrokよりもわずかに優れた結果を示しました。旅行に関する質問では、両製品から基本的に同じ旅程が得られましたが、Perplexity AIの方がフォーマット処理が優れていました。
これまでのところどう思いますか?
クレジット: カモシュ・パタク
Grokは南インドで他の選択肢を勧めるなど、期待以上の働きをしてくれました。Perplexityはそれについて追加の質問を用意してくれたので、その点は高く評価せざるを得ません。
クレジット: カモシュ・パタク
しかし、ショッピングリサーチとなると、Grokはトップ商品の推奨で失敗しました。提案された商品は私の住んでいるインドでは入手できず、他の選択肢も私が探していたものとは全く違っていました。
クレジット: カモシュ・パタク
一方、Perplexity AIは、私が知らなかったのですが、一番のおすすめで驚きました。私の希望のほとんどを満たしていました。他のオプションも興味深く、インドで入手できないものはありませんでした。GrokとPerplexityはどちらも、アーバンバイクを購入する際に何を探すべきかをわかりやすく説明してくれたので、その点では互角ですが、Perplexityの方がはるかに使い勝手が良かったです。
クレジット: カモシュ・パタク
私のテスト結果から判断すると、一般人にとって実際に役立つディープリサーチに関しては、Perplexity AI が Grok 3 よりも依然として優位に立っているように感じます。旅行の計画、買い物のリサーチ、ニュースや概念の理解など、Perplexity はより繊細な分析をします。純粋なスピードで言えば、Grok の方が速く、テキスト内にリンクを表示することも躊躇しません。一方、Perplexity ではリンクされたテキストをクリックすると、レポートの主題が実際に拡張されます。
Perplexityには、より多くのエクスポートオプションがあります。レポートをPDF、Markdown形式でダウンロードしたり、共有可能なページを作成したりできます(興味のある方は、都市部の自転車調査に関する私のレポートをご覧ください)。Grokでは、テキストをコピーすることしかできません。
これらは一体何を意味するのでしょうか?Grokは確かに使えるものの、有料版が無料版に追いついていないのは少し残念です。私もここで何度も遭遇する問題です。
Grok 3は入場料に見合う価値がない
現在、Grok 3の盛り上がりの真っ只中です。Grok 3自体は日々進化していますが、現状ではChatGPT PlusやPerplexity Proのサブスクリプションをキャンセルする必要はありません。Grokは多くの点で優れていますが、それほど優れているわけではありません。
ご希望であれば、Grok 3を一時的に無料でお試しいただけます。Xは、サーバーが負荷に耐えられなくなるまで、限定的な無料アクセスを許可しています。この期間がいつ終了するかは分かりません。マスク氏のXアカウントによると、無料期間は「短期間」のみとのことです。
さらに、モデルのパフォーマンス以外にも、Grok 3には、より確立されたAIアプリに見られるような機能の一部が欠けています。音声モードはなく、現時点でアクセスできるのはGrok 3のフルモデルのみです。より高速なGrok 3 miniはまだリリースされておらず、Grok 3用のAPIも提供されていません。
フルアクセスの価格を考えると、Grok 3はさらに理不尽です。X Premium+プランの月額40ドルは、Gemini Advanced、ChatGPT Plus、Perplexity Proの業界標準である月額20ドルの2倍です。無料トライアル期間が終了すると、30ドルのSuperGrokサブスクリプションが一般公開されるまで、高額なX Premium+プランがGrok 3にアクセスする唯一の方法となります(SuperGrokプランではGrok 3へのアクセスのみが提供され、プレミアムX機能は利用できません)。
現状では、お金に見合うだけの価値があるとは言えません。実際、多くの場合、DeepSeek R1のような無料モデルで十分でしょう(ただし、サードパーティ製のアプリを使えば、より良い体験ができるかもしれません)。