TumblrとWordPressがユーザーのデータをAI企業に販売している

TumblrとWordPressがユーザーのデータをAI企業に販売している
TumblrとWordPressがユーザーのデータをAI企業に販売している

ライフハッカーのロゴ

  • Bluesky ページを見る (新しいタブで開きます)
  • Instagramページを見る(新しいタブで開きます)
  • Facebookページで見る(新しいタブで開きます)
  • YouTubeページを見る(新しいタブで開きます)
  • Twitterページを見る(新しいタブで開きます)
  • コピーしました

皆さん、そろそろ古いブログを廃止する時期かもしれません。

スマートフォンで開いたWordpressアプリ

クレジット: Primakov/Shutterstock

目次


WordPressでウェブサイトを運営していたり​​、Tumblrでブログを運営していたり​​する方は、おそらくそこでかなりの量のコンテンツを作成し、公開しているでしょう。インターネットが「プライベート」ではないことは誰もが知っていますが、おそらくあなたはそれらのテキストや画像を自分のものだと思い込み、ホスティングを依頼している企業に盗まれることはないだろうと思い込んで投稿したのでしょう。

実のところ、WordPressとTumblrはまさにその準備を進めています。404 Mediaが最初に報じたように、両サイトの親会社であるAutomatticは、TumblrとWordPressのユーザーデータをMidjourneyやOpenAIなどのAI企業に販売する契約を締結しました。AI企業は、このデータを利用して自社のシステムを学習させる予定です。

それだけでは十分ではないかのように、セールの準備はうまくいかず、本来はセール対象ではないTumblr投稿の膨大なカテゴリーが、結局セール対象に含まれてしまったようです。そのデータには以下が含まれます。

ライフハッカーのロゴ

あなたも気に入るかもしれない

  • 公開アカウントからの非公開投稿

  • 削除または停止されたアカウントへの投稿

  • 未回答の質問

  • プライベートな回答

  • 露骨な投稿

  • Tumblrが権利を所有していない広告キャンペーンなどのパートナーアカウントからの投稿。(ここではAppleの名前が具体的に挙げられています。)

このデータは実際にはOpenAIとMidjourneyに送信されておらず、単にその用途のために識別され、承認されただけだった可能性があります。しかし、404 Mediaはこれを確認できませんでした。ただし、パスワードで保護された投稿、ダイレクトメッセージ、CSAMとして識別されたメディアは含まれていなかったことは確認できました。つまり…良いことです。

すべてのWordPressサイトがそうではないかもしれない

Automatticは、このデータスクレイピングの影響を受けるのはWordPress.comサイトのみであり、WordPress CMSで作成されたコンテンツを他のサイトでホストされているサイトで使用することは対象外であると明記しています。理論上、AutomatticでホストされていないWordPress CMSサイトは、これらの行為の影響を受けないはずです。

とはいえ、404 Media は、JetPack のような Automattic プラグインを使用することで、自己ホスト型サイトが Automattic の不正なデータ共有ポリシーの対象となるかどうかは確認できなかった。

Automatticがあなたのデータを販売することに同意する必要はない

404 Mediaの情報筋によると、Automatticは水曜日に自社のウェブサイトに新たな設定を追加し、ユーザーがサードパーティ企業へのデータ販売および共有をオプトアウトできるようにするという。同メディアは新しいFAQセクションのコピーを入手しており、このオプトアウトオプションを「最初から」有効にすると、クローラーによるサイトへのアクセスがブロックされるとの詳しい説明が記載されている。後日オプトアウトを選択した場合、Automatticはパートナーに連絡し、データセットとトレーニングからコンテンツを削除するよう「依頼」するとのこと。

この文言は、特に心強いものではありません。しかし、Automatticがこのオプトアウトオプションをリリースするのであれば、TumblrやWordPressのサイトでは必ず利用することをお勧めします

これまでのところどう思いますか?

404 Mediaの記事を受けて、Automatticは声明を発表し、主要なAIプラットフォームクローラーをブロックし、リストを更新して新しいクローラーを追加していること、検索エンジンによるサイトのインデックス作成をブロックする機能(AIクロールの抑制にも有効)を備えていること、WordPressとTumblrでホストされている公開コンテンツは、オプトアウトを選択していないサイトからのみ共有していると述べました。ただし、クローラーがこれらの設定に従うことを阻止する法律は存在しないことを認めており、特定のAI企業とは「その計画が私たちのコミュニティが重視する、つまり帰属、オプトアウト、そしてコントロールと一致する限り」協力していると述べています。

AI企業はこのデータをどのように活用するのでしょうか?

MidjourneyやOpenAIのような企業は、 AIシステムを訓練するために膨大なデータセットを必要とします。MidjourneyやChatGPTのようなプログラムは、膨大な量の情報を与えなければ実現できません。それが、彼らが行うべきことを「学習」する方法なのです。

つまり、お気に入りのレシピが満載のWordPressブログ投稿を生成AIモデルに入力して、食べ物(あるいは何であれ)について「話す」方法を学習させるのです。Tumblrに大量に投稿した写真から、車や鳥といった被写体を認識する方法をモデルに学習させることができます。あなたのサイトだけでなく、さらに何百万人ものユーザーのサイトから得られるデータは、AI企業にとって計り知れないほど貴重であり、つまり、それらのサイトを所有する企業にとっても非常に価値があり、それを販売できるということです。Automatticはこの取引で莫大な利益を得るでしょう。RedditもGoogleとのAIコンテンツライセンス契約で莫大な利益を得るでしょう。

インターネットに投稿して共有するのは楽しいことですが、そろそろ自分のものを取り戻す時期かもしれません。自分のアイデアを共有するプラットフォームを所有していない場合は、そのアイデアが人工知能の補助輪になってしまう前に、自分が所有するプラットフォームに移行することを検討してください。

ダウンロードニュースレター 技術ニュースを見逃さない

ジェイク・ピーターソンのポートレート ジェイク・ピーターソン シニア技術編集者

ジェイクとチームからの最新の技術ニュース、レビュー、アドバイスを入手してください。

ダウンロードニュースレター テクノロジー 関連のニュースを見逃さないでください。ジェイクとチームからの最新のテクノロジーニュース、レビュー、アドバイスをお届けします。

次の記事へスクロールしてください