AI動画ジェネレーターは急速に進化し、より広く利用されるようになっています。GoogleのVeo 2は、Google One AIプレミアムプランの加入者向けにGeminiアプリに組み込まれています。OpenAIのSora、Runway、AdobeのFireflyなど、他のAIツールと同様に、Veo 2を使えば、テキストプロンプトだけでプロ並みの動画を作成できます。
Veo 2が有料ユーザー向けに公開された今、AI動画ジェネレーターをそれぞれテストし、それぞれの長所と短所を比較検討する絶好の機会と言えるでしょう。そして、AI動画全般の現状を評価する良い機会にもなりそうです。これらのツールは映画制作に革命を起こす、あるいは少なくともインターネットをAIの粗悪品で埋め尽くすだろうとよく言われますが、果たして本当に実用的なのでしょうか?
マイクロソフトは最近の広告でAIを活用しており、その考えに至ったようだ。しかし、この動画のうちAIが作成したのは一部だけで、カット割りが速く、動きが制限されているため、幻覚が起こりにくく、あるいは幻覚に気づかれにくいシーンだ。
このガイドでは、Google Veo 2 を取り上げ、Sora、Runway、Firefly と比較します。他にも動画ジェネレーターはありますが、特に有名なのは以下の4つです。いずれも有料(月額20ドルから)なので、実際に使ってみるには少なくとも1ヶ月は登録する必要があります。
跳ねるボール
私と同じくらいの年齢の方なら、ソニーが2005年に新発売の1080p対応ブラビアテレビのプロモーションのために制作した素晴らしいCMを覚えているでしょう(上)。サンフランシスコの急な坂道にカメラが回りながら10万個以上のバウンスボールが落とされるという、見ていてワクワクする内容でした(舞台裏のストーリーもなかなか面白いです)。
これはAIにとって真の挑戦であり、多くの物理法則と動きが絡み合います。私が使用したプロンプトは、「サンフランシスコの急な日当たりの良い通りを、何千個もの鮮やかな色のボールがスローモーションで跳ねながら転がり落ちていく。ボールが木々や駐車中の車を通り過ぎ、転がり落ちる様子をカメラが注意深く撮影する。」でした。
Google Veo 2 の試みは悪くない。奇妙な物理法則が働いているものの、かなり自然に見え、あまり注意深く見なければ短いクリップとしても使えるだろう。背景の要素はよくレンダリングされており、最初のプロンプトの指示にもかなり忠実に従っている。
ソラは、レンダリングするはずのシーンに戸惑っているようです。確かに色のついたボールはありますが、それらはぐちゃぐちゃと動き、重力に逆らっています。動画のテンポは、私がリクエストした方向とは逆の方向ではありますが、問題なく、背景部分も全体的には良好です。
オリジナルのソニーのクリップと比較すると、「Runway」の雰囲気はかなり近いですが、やはりいくつか問題があります。ボールの動きが全く安定していないし、動きも私の希望通りではなく、右上の窓からエイリアンが覗いているように見えます。とはいえ、通りの雰囲気はなかなかクールです。
Fireflyは、おそらくこの中で一番ひどい作品でしょう。ボールのほとんどは静止していて、動いているボールもあまりきれいにレンダリングされていません。道の描写はまあまあですが、特に目立つところはありません。レトロなビデオゲームのような雰囲気が漂っています。SORAのクリップと同じように、本当は下へ下りたいのに、カメラが上へ向かって行ってしまうのです。
「ジュラシック・パーク」のシーン
AI が映画を作る人間の代わりになるのであれば、1993 年のスピルバーグ監督作品の「ジュラシック・パークへようこそ」のシーン、つまりジョン・ハモンド役のリチャード・アッテンボローが初めて訪問者に恐竜を見せるシーン (上記) と同じくらい迫力のあるシーンを AI が作り出せるようになる必要がある。
AIがこのシーンをどう解釈するか興味がありました。プロンプトはこうでした。「丘の頂上で、二人の古生物学者が草むらの中をよろめきながらゆっくりと歩いています。彼らが歩いていると、カメラが引き、広い空き地とその下の湖が映し出されます。湖と木々の間を恐竜がゆっくりと歩いているのが見えます。」
Google Veo 2のクリップはなかなか良い出来です。カメラは私が説明したように動いていませんし、古生物学者たちもよろめいているわけではありません(丘の上にいるわけでもありません)。でも、風景は良く、恐竜の姿も悪くありません。全体的にはありきたりな感じですが、なかなか良い出来だと思います。
ソラはこの指示に少し狂ってしまいました。カメラの動きがぎこちなく、私が指示した通りに動いてくれず、恐竜は奇妙な形を変える生き物のように見えました。この作品について言えることは、私が説明した要素はすべて含まれていて、周囲の風景もそれなりによくできているということです。
「ランウェイ」に関しては、カメラの動きやシーン全体の雰囲気に関しては、おそらく私が求めていたものに最も近いものだったと思います。湖と恐竜は十分にリアルに見えますが、完璧な描写とは決して言えません。赤いシャツを着た古生物学者は一体どこへ消えてしまうのでしょうか?
ファイアフライのまたしても駄作だ。古生物学者とは何かを理解しているのかどうかは定かではないし、恐竜も小さすぎる。湖と周囲の森の描写は、フレーム内のあらゆるものにAIの要素が色濃く感じられるものの、まずまずの水準に仕上がっている。カメラワークも上手く表現されている。
『リビング・デイライツ』のワンシーン
もう一つ。 『リビング・デイライツ』のボンドとカーラの忘れ難い国境越えのシーン。チェロケースに乗って雪山を駆け下りるシーンです(上)。ティモシー・ダルトンやマリアム・ダボを雇ったり、カメラの操作を学んだり、オーストリアまで行ったりする必要はありません。AIがすべてのシーンを自動で作ってくれるからです。
この作品のテーマは、「冬服を着た男女がチェロケースに乗って雪道を滑降している。道には柵があり、二人とも柵に辿り着くと、その下をくぐり抜ける」というものでした。
これまでのところどう思いますか?
Google Veo 2は、あらゆる点においてこの点を非常にうまく処理しています。シーンは概ねリアルで楽しく、チェロケースのような見た目もしています。2人の人物が道路の障壁を通り抜けている様子は、まるで存在しないかのように無視しなければなりませんが、少なくともそこには障壁が存在します(他のAIモデルでは認識できなかったものです)。
ソラさん、またしても悪くないですね。まあ、あれはチェロケースじゃないし、二人は確かに正面を向いているでしょうが、雪道と周りの木々はいい感じで、没入感たっぷりのシーンです。ソラさん、私の道路のバリアはどこにあるの?この人たちがバリアの下をくぐっているのを見たいです。
Runwayに関しては、どんな動画を参考にしたにせよ、チェロケースに乗って山を滑り降りる動画ではなかったことは確かです。人々が互いに溶け合い、ショット内の要素が形を変えていて、とにかく奇妙に見えます。とはいえ、雪景色と実際の雪のエフェクトは確かに良いですね。
Adobe Fireflyが一体何を考えているのか、誰にも分からない。この動画の物理法則は全く意味不明だし、キャラクターにも一貫性がなく、くぐり抜けられるような道路の障害物もない。見ているだけで不安になる。とはいえ、動画には雪道、チェロケース、そして二人の人物が映っている。
明確な勝者はいない
全体的に見て最も印象に残ったのはVeo 2の動画ですが、Runwayはリアリティに関しては概ね優れているように思います。全体的に見て、物理特性、リアリティ、そして迅速な解釈には多くの問題があります。これらの動画はすべて明らかにAIによるもので、奇妙な癖や矛盾が数多く見られます。
さて、これらのAIジェネレーターがプロの広告や映画のようなクオリティーを実現するとは思っていませんでした。テキストプロンプトと数分の時間と労力だけで、それらのシーンを再現するのは不可能です。明らかに非常に優れたこれらのツールを軽々しく批判するつもりはありませんが、AI動画の根本的な問題点を指摘したいのです。
これらのボールは跳ねません。 クレジット:Adobe Firefly/Lifehacker
もっと丁寧に作業し、専門知識を駆使すれば、もっと見栄えの良いものが作れるはずです。そして、これらの動画ジェネレーターは間違いなく進化していくでしょう。5年後、10年後にはどんな動画が作れるようになるか、誰にもわかりません。これらのプラットフォームで紹介されている動画を見れば、素晴らしい結果が生まれる可能性が分かります。
しかし個人的には、これらのAIツールがどれだけ優れた学習能力を持っていたとしても、従来の映画制作を完全に置き換えることは到底できないと考えています。ソニーのCMのようなものをAIで実現するには、途方もなく詳細な指示を山ほど書かなければならず、それでも思い通りの結果が得られないかもしれません。排水溝から飛び出すカエルの動画をAIが思いつくでしょうか?確かに結果は素早く簡単に得られますが、クリエイティブな判断のほとんどをAIに任せていることになります。これらの動画はまるでコンピューターで生成されたかのようです。
これらのうちの1人が、今にも姿を消そうとしている。 クレジット:Runway/Lifehacker
AIは、ボールがどのように跳ねるのか、恐竜はどんな姿をしているのか、チェロケースに乗って雪道を滑り降りる人がどちらの方向を向くべきなのか、といったことを実際には理解していません。AIは過去に見た動画に基づいて近似値を計算し、計算しますが、こうした欠点は画像やテキストよりも動画で顕著に現れます。上記の例を含め、ほとんどのAI動画には、画面に映ったり消えたりする要素が含まれていないことに気づくでしょう。AIは、目に見えない要素の見え方を忘れてしまう可能性が高いからです。