AIモデルは幻覚をより多く起こしている(そしてその理由は不明)

AIモデルは幻覚をより多く起こしている(そしてその理由は不明)
AIモデルは幻覚をより多く起こしている(そしてその理由は不明)

幻覚は生成AIモデルにとって常に問題となってきました。創造性を発揮し、テキストや画像を生成するAIモデルの構造は、同時に作り話をする傾向も持ち合わせています。そして、AIモデルの進化に伴い、幻覚の問題は改善するどころか、むしろ悪化しています。

OpenAIの新しい技術レポート(ニューヨーク・タイムズ経由)では、同社の最新モデルo3とo4-miniが、SimpleQAと呼ばれるAIベンチマークにおいて、それぞれ51%と79%の幻覚効果を示したことが詳述されています。以前のo1モデルでは、SimpleQAの幻覚効果は44%でした。

これらは驚くほど高い数値であり、間違った方向に向かっています。これらのモデルは、回答をじっくり考え、よりゆっくりと提示することから、推論モデルと呼ばれています。OpenAI自身のテストに基づくと、回答をじっくり考えることで、間違いや不正確さが生じやすくなることは明らかです。

虚偽の事実は、OpenAIやChatGPTに限ったことではありません。例えば、GoogleのAI概要検索機能をテストしていたところ、すぐに誤認識してしまいました。AIがWebから情報を適切に抽出できないことは、すでに十分に文書化されています。最近では、AIコーディングアプリ「Cursor」のサポートボットが、実際には変更されていないポリシー変更を発表しました。

個人的な経験ではありますが、AI検索やボットを使った際に、それほど多くの不正確さを感じたことはありません。間違いは起きるものの、エラー率は79%には遠く及びません。しかし、特にこれらのAIモデルを開発しているチームが幻覚が起こる理由を完全に理解していないことを考えると、この問題は永遠に解決しない可能性もあるようです。

AIプラットフォーム開発会社Vecteraが実施したテストでは、結果は完璧ではないものの、はるかに良好です。多くのモデルで幻覚発生率は1~3%です。OpenAIのo3モデルは6.8%、より新しい(そして小型の)o4-miniは4.6%です。これは私がこれらのツールを実際に使用した経験とほぼ一致していますが、たとえごくわずかな幻覚発生率であっても、大きな問題となる可能性があります。特に、これらのAIシステムに多くのタスクや責任を委譲していく中で、その傾向は顕著です。

幻覚の原因を探る

ChatGPTアプリ

ChatGPTは少なくともピザに接着剤をつけてはいけないことを知っている。 クレジット:Lifehacker

幻覚を治す方法や、その原因を完全に特定する方法を誰も本当には知りません。これらのモデルは、プログラマーが設定したルールに従うように構築されているのではなく、独自の動作と反応方法を選択するように構築されています。ベクターラの最高経営責任者(CEO)であるアムル・アワダラ氏はニューヨーク・タイムズ紙に対し、AIモデルは「常に幻覚を起こす」ものであり、これらの問題は「決してなくなることはない」と述べました。

AIからの回答をリバースエンジニアリングする方法を研究しているワシントン大学のハンナネ・ハジシルジ教授は、ニューヨーク・タイムズ紙に対し、「これらのモデルがどのように機能するかはまだ正確には分かっていない」と語った。車やパソコンのトラブルを解決するのと同じように、問題を解決するには何が問題なのかを把握する必要があるのだ。

AI分析ラボTransluceの研究者ニール・チョウドリー氏によると、推論モデルの構築方法が問題を悪化させている可能性があるという。「私たちの仮説は、Oシリーズモデルに用いられる強化学習は、標準的な学習後パイプラインによって通常は軽減される(ただし完全には解消されない)問題を増幅させる可能性があるということです」と、チョウドリー氏はTechCrunchに語った。

これまでのところどう思いますか?

一方、OpenAI自身のパフォーマンスレポートでは、「世界に関する知識の不足」という問題が指摘されているほか、o3モデルは以前のモデルよりも多くの主張をする傾向があり、それが幻覚の増加につながるとも指摘されています。しかしながら、OpenAIは最終的に「これらの結果の原因を理解するには、さらなる研究が必要だ」と述べています。

そして、そのような研究に取り組んでいる人はたくさんいます。例えば、オックスフォード大学の研究者たちは、複数のAI出力の差異を測定することで幻覚の可能性を検出する手法を発表しました。しかし、これは時間と処理能力の面でより多くのコストを要し、幻覚の問題を真に解決するわけではなく、幻覚が起きやすい時期を知らせるだけなのです。

AIモデルにウェブ上で事実確認をさせるのは、特定の状況では役立つかもしれませんが、AIモデルはこの点でも特に優れているわけではありません。ピザに接着剤を塗ってはいけないとか、スターバックスのコーヒーに410ドルも払うのは明らかに間違っているとか、そういった単純な人間的な常識がAIモデルには欠けているのです(そして、これからも決して欠けることはないのでしょう)。

確かなのは、AIボットは自信に満ちた口調で話していても、常に信頼できるわけではないということです。ニュースの要約、法律相談、インタビューの記録など、どんな形であれです。こうしたAIモデルが私たちの私生活や仕事にますます浸透するにつれ、この点は重要になります。AIの利用は、幻覚がそれほど重要でない用途に限定するのが賢明です。