視聴中の動画がAIで制作されたものかどうかを見分ける方法

何かのビデオがあるからといって、それが実際に起こったとは限りません。

2024年8月12日

クレジット: ステイシー・チュー

AIはどこにでも存在します。その見分け方をご紹介します。

この記事は、Lifehackerの「AIを暴く」シリーズの一部です。AIが生成する6種類のメディアを取り上げ、人工コンテンツと人間が作成したコンテンツを見分けるのに役立つ、共通の癖、副産物、そして特徴を取り上げます。

AI企業は動画生成ツールに熱狂しています。これらの新しいモデルがもたらすクリエイティブな可能性を喧伝し、その成果がどれほど素晴らしいものになるかに期待を寄せています。しかし、私から見ると、簡単な指示だけで誰でもリアルな動画を作成できる技術は、楽しくも将来性もなく、むしろ恐ろしいものです。オンラインで目にするあらゆる動画がAIによって空から作り出されたものかもしれないという世界に、本当に住みたいでしょうか？好むと好まざるとにかかわらず、私たちはまさにその方向に向かっているのです。

悪意のある人物に、大多数、いや、少なくともほとんどの人が、ついつい本物だと信じてしまうほど動画を操作するツールを与えれば、インターネット上で初めて嘘をついた人からずっと燃え続けている火に油を注ぐようなものです。今こそ、オンラインで目にするものに警戒を怠らず、現実を映し出していると謳う動画に批判的な目を向けることが、これまで以上に重要になっています。特に、その現実が私たちを刺激したり、世界観に影響を与えたりすることを意図している場合はなおさらです。

AI動画はどれも同じではない

現在、注意すべきAI動画は大きく分けて2種類あります。1つ目は、AIモデルによって完全に生成された動画です。これは、実際の映像を一切使用せず、制作前に存在しなかった映像をそのまま動画にしたものです。OpenAIのSoraモデルを思い浮かべてみてください。このモデルは、短いながらも高品質な動画を生成でき、まるで本物の動画のようでいて人を騙してしまうほどです。幸いなことに、Soraはまだ開発中で一般公開されていませんが、知識のある人なら、このような動画をゼロから生成できるツールは他にもあります。

現時点でより重要であり、短期的な影響としてより懸念されるのは、 AIによって改変された動画です。ディープフェイクを想像してみてください。AIを使ってある人物の顔を別の人物の顔に重ね合わせたり、加工された音声コンテンツに合わせて実際の顔を改変したりする、実際の動画です。

両方のタイプのAI動画コンテンツを見分ける方法をご紹介します。AI動画ジェネレーターが進化し、よりアクセスしやすくなるにつれ、AI画像が爆発的に拡散したのと同じように、これらの動画がオンライン上に現れるようになるかもしれません。油断は禁物です。

AIビデオジェネレータの仕組み

他の生成AIモデルと同様に、AI動画生成器は動作するために膨大な量のデータを入力します。AI画像モデルは個々の画像で学習し、静止画上のパターンや関係性を認識するように学習しますが、AI動画生成器は複数の画像間の関係性や、それらの画像が連続してどのように変化するかを認識するように学習します。動画とは、結局のところ、個々の画像を連続して再生したものに過ぎません。動画を突然生成するプログラムを作るには、動画内の被写体を生成できるだけでなく、それらの被写体がフレームごとにどのように変化するかを把握できる必要があります。

ディープフェイクプログラムは顔に特化したトレーニングを行い、重ね合わせた動画の動きや感情を模倣するように設計されています。多くの場合、生成的敵対的ネットワーク（GAN）が用いられます。GANは2つのAIモデルを互いに競合させ、1つはAIコンテンツを生成するモデル、もう1つはコンテンツがAI生成かどうかを判別するモデルです。一方、Soraのようなモデルは、理論上は、ほぼあらゆるものを対象に動画を生成できます。Soraは拡散モデルと呼ばれるもので、元の画像が消えるまでトレーニングデータに「ノイズ」（実際には静的なノイズ）を追加します。そこからモデルはノイズから新しいバージョンのデータを作成し、ゼロから新しいコンテンツを作成するようにトレーニングします。

AIによる動画生成はまだ初期段階であり、ディープフェイク技術は優れているものの、完璧とは言えません。これらの技術には限界があり、将来のバージョンではなくなる可能性もありますが、現時点では、視聴している動画が実際に本物なのか、それとも加工されたものなのかを見分ける手がかりはいくつかあります。

顔がちょっとおかしい

人物の顔に別の人物の顔を重ね合わせる技術は素晴らしいものですが、完璧とは程遠いものです。多くの場合（ほとんどではないにしても）、ディープフェイクには明らかな偽造の兆候が見られます。多くの場合、それは凡庸なPhotoshopのように見えてしまいます。顔が人物の頭部の他の部分に溶け込まず、照明が背景の風景と合致せず、全体に不気味の谷効果が現れています。

著名人が物議を醸す発言や行動をしている動画を見ているなら、その人の表情をよく見てみてください。AIが関与している可能性はあるでしょうか？「オバマ大統領」がばかげた発言をしているこの動画は、その欠陥を露呈しています。このディープフェイクは6年前に作られたものですが、AIによって改変されたこの種の動画に見られる、顕著な視覚的欠陥のいくつかを浮き彫りにしています。

口の動きと言葉が一致していない

同様に、現在のディープフェイク技術のもう 1 つの欠点は、偽の顔の口の動きをその下のスピーチと一致させることが困難なことです。特にスピーチも人工的なものである場合、それが顕著になります。

昨年のアンダーソン・クーパーのディープフェイクを見てください。偽の顔は上のオバマのビデオよりもリアルですが、唇の動きがAIアンダーソンのスピーチと一致していません。

ソーシャルメディアで拡散しているディープフェイクの多くは粗悪な作りで、見ればAIの粗悪品だとすぐに分かります。多くの人は見抜けないので、気に入らない政治家の発言の動画を見て、それが真実だと思い込んだり、面白がって気にしないこともあります。

不具合やアーティファクトを探す

AI画像ジェネレーターと同様に、AI動画ジェネレーターも奇妙なグリッチやアーティファクトのある動画を生成します。カメラが木の葉に近づくと葉がちらついたり、背景を歩く人物のフレームレートが動画の他の部分と異なっていたりすることがあるかもしれません。下の動画は一見リアルに見えますが、特に木々にこうしたグリッチが満載です。（また、左側の道路を走る車が頻繁に消えてしまうことにも注目してください。）

しかし、中でも最悪なのは？ディープフェイクです。これらの動画は、まるで1,000回もダウンロードと再アップロードを繰り返し、その過程で忠実度を失ってしまったかのように、ひどい出来栄えになっていることがよくあります。これは意図的に行われており、動画の欠陥を隠すためのものです。ほとんどのディープフェイク動画は、4Kで再生するとすぐに正体がバレてしまいます。高解像度の動画では、前述の欠陥がすべて目立ってしまうからです。しかし、画質を落とすと、これらの欠陥を隠しやすくなり、結果として、動画が本物だと思わせるのが容易になります。

これまでのところどう思いますか?

物理法則が間違っている

ビデオカメラは、少なくともカメラのレンズとセンサーが可能な限り、世界をありのままに捉えます。一方、AIビデオジェネレーターは、過去に見たものに基づいて動画を作成しますが、追加のコンテキストは一切ありません。AIは実際には何も知らないため、可能な限り空白を埋めようとします。そのため、AIが生成した動画には、物理的な誤差が生じる可能性があります。

例えば、Soraはアマルフィ海岸の崖の上にある教会の動画を生成しました。一見すると、かなり本物らしく見えます。しかし、海に焦点を合わせると、波は実際には岸から離れ、本来進むべき方向とは逆の方向に動いていることがわかります。

ジェネレーターは、男性がトレッドミルで走っている、表面的には説得力のある動画も生成しました。ここでの大きな特徴は、男性がトレッドミルに背を向けながら「前向き」に走っていることです。これは、モデルがトレッドミルの仕組みを正確に理解していないためです。しかし、よく見ると、男性の歩幅が通常とは異なることがわかります。まるで上半身が時折止まり、下半身が動き続けているかのようです。現実世界ではこのようなことはあり得ませんが、ソラは走る際の物理的な仕組みを理解できていないのです。

別の動画では、「考古学者」たちが砂漠の砂の中からプラスチック製の椅子を発見し、引き上げて埃を払う様子が映し出されています。これはモデルにとって複雑な要求であり、確かにリアルな瞬間を再現しているものの、この作業全体に関わる物理法則は大きく外れています。椅子はどこからともなく現れ、それを持ち上げている人物は人間では考えられないような方法で椅子を運び、椅子はひとりでに浮かび上がり、動画の最後には全く別の何かに変形してしまいます。

手足が多すぎる

この動画コンテンツを生成するAIモデルは、プレイヤーの手足がいくつあるべきかを理解していません。フレーム間で手足が動くことは認識しているものの、シーン全体を通して同じ手足であるべきであることを理解できていないのです。

そのため、動画全体を通して腕、脚、そして足が何度も現れたり現れたりします。常にそうとは限りませんが、このSoraの動画ではそれが確認できます。「カメラ」が前を歩く女性たちを追っていると、彼女の左腕と左側の間に、3つ目の手が彼女の前を揺れているのが見えます。これは微妙ですが、AI動画生成ツールが作り出す類のものです。

この例では、猫をよく見てください。クリップの終わり近くで、猫は突然3本目の足を生成します。これは、モデルが現実世界ではそのようなことは通常起こらないことを理解していないためです。一方、女性がベッドで寝返りを打つと、彼女の「腕」がシーツに巻き込まれるように見えます。

物事が意味をなさない

余分な手足はそれほど意味をなさないかもしれませんが、AI動画ではそれ以上の意味を持つことがよくあります。繰り返しますが、これらのモデルは実際には何も知りません。単に学習に使用したデータセットに基づいて、指示を再現しようとしているだけです。例えば、アマルフィ海岸の町には石の階段がたくさんあるはずだということは理解していますが、それらの階段がどこかに繋がっている必要があることを理解していないようです。OpenAIのデモ動画では、これらの階段の多くが行き止まりに配置されており、具体的な目的地は示されていません。

同じ動画で、人混みの中にいる「人々」に注目してください。一見すると、街をぶらぶら歩いている観光客のように見えますが、中には忽然と姿を消す人もいます。階段を降りているように見える人もいますが、実際にはどこにも通じない階段を使っているわけではありません。彼らはただ、平らな地面を「階段を降りている」だけなのです。

ほら、インターネットで目にするものを鵜呑みにしないことが、ここしばらく重要になってきている。真実を歪曲して誤解を招くブログ記事を書いたり、動画クリップを操作して自分の都合の良いようにストーリーを組み立てたりするのに、AIは必要ない。しかし、AI動画は違う。動画自体が操作されるだけでなく、そもそも何も起こらなかった可能性もあるのだ。インターネット（そして世界全体）に対して、これほど冷笑的に捉えなければならないのは残念だが、たった一つのきっかけで何もないところから動画が生み出されてしまうのなら、他に選択肢があるだろうか？

ダウンロードニュースレター技術ニュースを見逃さない

ジェイク・ピーターソンのポートレートジェイク・ピーターソン