- Bluesky ページを見る (新しいタブで開きます)
- Instagramページを見る(新しいタブで開きます)
- Facebookページで見る(新しいタブで開きます)
- YouTubeページを見る(新しいタブで開きます)
- Twitterページを見る(新しいタブで開きます)
- コピーしました
AI は飢えていますが、その欲求を満たすのに十分なデータがありません。

クレジット: Tada Images/Shutterstock
目次
AIが消費できるインターネットが不足しつつあります。私たちがこの世界規模のウェブに(もしかしたらそうでないかもしれませんが)アクセスして楽しんだり、学んだり、繋がったりする一方で、企業はそのデータを使って大規模言語モデル(LLM)を訓練し、能力を高めています。ChatGPTが事実情報だけでなく、応答を繋ぎ合わせる方法も知っているのも、まさにこのためです。ChatGPTが「知っている」情報の多くは、膨大なインターネットコンテンツのデータベースに基づいています。
多くの企業が法学修士(LLM)の研修にインターネットを活用している一方で、ある問題に直面しています。インターネットには限りがあり、AI開発企業はインターネットを急速に成長させたいと考えているのです。ウォール・ストリート・ジャーナルの報道によると、OpenAIやGoogleといった企業がこの現実に直面しています。業界の一部では、高品質なデータが不足し、一部の企業が自社データをAIに提供しないことで、約2年でインターネットが枯渇するとの予測が出ています。
AIには大量のデータが必要
これらの企業が現在そして将来必要とするデータの量を過小評価してはならない。エポック社の研究者パブロ・ビジャロボス氏はウォール・ストリート・ジャーナル紙に対し、OpenAIはGPT-4を約1200万トークンで訓練したと語った。トークンとは、LLMが理解できる方法で分解された単語または単語の一部である。(OpenAIによると、1トークンは約0.75語なので、1200万トークンは約900万語に相当する。)ビジャロボス氏は、OpenAIの次期大型モデルであるGPT-5が予想される成長に対応するには、60兆から100兆のトークンが必要になると考えている。これはOpenAIの計算によると、45兆から75兆語に相当する。さらに驚くべきは、インターネット上で入手可能なあらゆる高品質データを使い尽くした後でも、10兆から20兆、あるいはそれ以上のトークンが必要になるだろうとビジャロボス氏は述べている。

あなたも気に入るかもしれない
それでも、ヴィラロボス氏は、データ不足が本格的に顕在化するのは2028年頃だと考えている。しかし、AI企業をはじめとする他の企業は、それほど楽観視していない。彼らは事態の重大さを察知し、モデルの学習にインターネットデータ以外の代替手段を模索している。
AIデータの問題
もちろん、ここで対処すべき問題がいくつかあります。まず、前述のデータ不足です。データなしでLLMを訓練することはできませんし、GPTやGeminiのような巨大なモデルには大量のデータが必要です。しかし、次に問題となるのは、そのデータの質です。企業はインターネットの隅々までをスクレイピングするわけではありません。なぜなら、インターネットには大量のゴミが溢れているからです。OpenAIは、ユーザーのプロンプトに正確に応答できるLLMを作成することを目指しているため、誤情報や質の低いコンテンツをGPTに投入したくありません。(もちろん、AIが誤情報を吐き出す例は既に数多く見てきました。)そうしたコンテンツをフィルタリングすることで、AIの選択肢は以前よりも少なくなります。
最後に、そもそもインターネットからデータを収集することの倫理的な問題があります。あなたが知っているかどうかに関わらず、AI企業はあなたのデータをスクレイピングし、法学修士(LLM)の訓練に利用している可能性があります。もちろん、これらの企業はあなたのプライバシーなど気にしません。彼らはただデータが欲しいだけです。許可されれば、彼らはそれを手に入れるでしょう。これは大きなビジネスでもあります。ご存知ないかもしれませんが、RedditはあなたのコンテンツをAI企業に販売しています。一部の企業は反撃しており、ニューヨーク・タイムズはOpenAIを提訴しています。しかし、真のユーザー保護が法制化されるまでは、あなたの公開インターネットデータはあなたの近くの法学修士(LLM)へと流れていくことになります。
では、企業はこの新しい情報をどこから求めているのでしょうか?OpenAIがその先頭に立っています。GPT-5については、YouTubeからスクレイピングした動画など、公開動画の書き起こしを自社のWhisperトランスクリプターを用いてモデルに学習させることを検討しています。(同社は既にAI動画生成ツールSoraでこれらの動画自体を使用している可能性があります。)OpenAIは、特定のニッチ分野向けの小規模モデルの開発や、データの質に応じて情報提供者に報酬を支払うシステムの開発にも取り組んでいます。
これまでのところどう思いますか?
合成データが答えでしょうか?
しかし、一部の企業が検討している次のステップの中で、おそらく最も物議を醸しているのは、合成データを用いたモデルの学習です。合成データとは、既存のデータセットから生成される情報です。つまり、元のデータセットに似てはいるものの、全く新しいデータセットを作成するという考え方です。理論的には、合成データを使用することで、元のデータセットの内容を隠蔽しつつ、LLMに学習用の類似データセットを提供することができます。
しかし実際には、LLMを合成データで学習させると「モデル崩壊」につながる可能性があります。これは、合成データには元のデータセットの既存のパターンが含まれているためです。LLMを同じパターンで学習させると、成長できなくなり、データセットの重要な部分を忘れてしまうことさえあります。時間の経過とともに、AIモデルは同じ結果を返すようになります。これは、独自の応答をサポートするための多様な学習データがないためです。これはChatGPTのようなモデルを台無しにし、そもそも合成データを使用する目的を損ないます。
それでも、AI企業はある程度、合成データに楽観的です。AnthropicとOpenAIはどちらも、この技術を自社のトレーニングセットに活用できると考えています。両社は有能な企業なので、もし自社のモデルに合成データを組み込む方法を、大失敗することなく見つけることができれば、大いに期待しています。実際、2010年の私のFacebook投稿がAI革命の推進力として使われていないとわかれば、なおさら嬉しいものです。
ダウンロードニュースレター 技術ニュースを見逃さない
ジェイク・ピーターソン シニア技術編集者
ジェイクとチームからの最新の技術ニュース、レビュー、アドバイスを入手してください。
ダウンロードニュースレター テクノロジー 関連のニュースを見逃さないでください。ジェイクとチームからの最新のテクノロジーニュース、レビュー、アドバイスをお届けします。
次の記事へスクロールしてください