あのバイラル動画を作ったAIツールを試してみたけど、思ったほど良くなかった

あのバイラル動画を作ったAIツールを試してみたけど、思ったほど良くなかった
あのバイラル動画を作ったAIツールを試してみたけど、思ったほど良くなかった

AI技術が急速に進歩していることは周知の事実であり、Googleが最近発表した動画ジェネレータ「Veo 3」は、このことを改めて強調しました。Veo 3はリアリティの面で一歩前進し、初めて音声機能も搭載されています。多くの場合、Veo 3の出力は実際の動画とほとんど区別がつきません。

まだ完璧ではありませんが、「Veo 3」はインターネットで旋風を巻き起こしています。街頭インタビューから無能なストームトルーパーまで、あらゆる場面を網羅した動画が話題になっています。銀河帝国の兵士を描写することで、動画間の一貫性を保つ少なくとも一つの方法となっています。なぜなら、当然ながら、どれも同じような見た目になるからです。

Google自身も、海に出る船員やクラシックバイオリニストなど、迫力ある動画クリップのショーリールを公開しています。これらの動画がAIによるものだと見分けるには、かなり注意深く見なければならず、それでも必ずしも見分けがつくとは限りません。

しかし、これらはあくまでも最終結果です。制作プロセスはどうでしょうか?Google AIサブスクリプションに料金を支払えば、Veo 3を使った独自の動画を制作できます。その方法はいくつかありますが、ここで詳しく説明します。

Veo 3でビデオを作成する

Google AI Proプランに月額20ドルを支払うと、GeminiアプリでVeo 3ビデオを1日3回生成できます。これは、より高速で低品質のVeo 3 Fastモデルです。月額250ドルのGoogle AI Ultraプランに加入すると、Veo 3へのフルアクセスの「最高制限」が適用されます。Googleはこれを厳密に数値化していないため、明確な上限はなく、需要に応じて変動する可能性があります。各ビデオの長さは8秒に固定されています。

Geminiチャットボットではなく、FlowとWhiskツールを使って動画を作成する場合は、少し異なります。Proプランでは毎月1,000 AIクレジット、Ultraプランでは12,500 AIクレジットが付与されます。Veo 3の標準動画は100クレジット、Veo 3 Fast動画は20クレジットです。これらのツールでは、解像度を1080pにアップスケールできます(Geminiアプリをお使いの場合は720p)。

ジェミニアプリ

Geminiアプリで動画を作成する。 クレジット:Lifehacker

Googleのジョシュ・ウッドワード氏によると、Veo 3 Fastは通常のVeo 3と同じ720p解像度で、(当然のことながら)より高速で、処理負荷が低くなっています。画質面でどのようなトレードオフがあるのか​​は明確ではありませんが(Googleチームはメールで問い合わせたところ、詳細を明かしませんでした)、個人的な感想としては、一部のテクスチャ、ライティング、ディテールが劣っているようです。Flowアプリには、「Veo 3 FastはVeo 3の5分の1の品質」というラベルが付いています。

動画作成を始めるには、私と同じようにGoogle AI Proのサブスクリプションメンバーであれば、ウェブ上のGeminiアプリにアクセスする必要があります(モバイル動画作成は現時点ではGoogle AI Ultraのサブスクリプションメンバーのみ利用可能です)。左上隅のモデルピッカーをクリックし、2.5 Pro(プレビュー)か、この記事を読んでいる時点での最新モデルを選択します。テキスト入力ボックスで「動画」を選択すれば、あとはプロンプトを入力するだけです。

以前、Veo 2を使って、サンフランシスコの街中に何千ものカラフルなバウンスボールが投げ込まれるソニーの昔のテレビCMを再現しようと試みました。結果は芳しくなかったので、Veo 3 Fastで同じことを試してみました。下の動画のように、以前よりは良い動画ができました。まるで実写で撮影されたかのような仕上がり(木漏れ日が素晴らしい)ですが、それでも私の指示はほとんど無視され、ソニーのCMほどの出来栄えには程遠いです。

ここで、生成AIの本質、つまり過去に見たものを模倣するという点に戻ります。Veo 3は、街頭インタビューの音声合成で大量に学習しており、バウンドボールが丘を転がり落ちるような広告はあまり学習していないと推測します。また、これは、望む結果を得るには多くの指示が必要になる可能性があることを浮き彫りにしています。そして、私のAIビデオテストを通して、指示に従うツールを開発することは、継続的な課題となっています。

その日はVeo 3の世代が残り2世代となったので、Veo 3 Fastにスピルバーグ監督作品の「ジュラシック・パークへようこそ」の名シーンを再現してもらいました。Veo 2の時よりは良くなりましたが、指示に従うのが難しく、古生物学者の数が多すぎるという問題もありました。とはいえ、恐竜(と恐竜の鳴き声)はよくできています。

これまでのところどう思いますか?

Flowを使用してより長いムービーを作成する

Googleは、アニメーション制作にはWhisk、長編動画制作にはFlowも提供しています。これらは、ご加入のプランに応じて、Geminiアプリと同じAIモデルを使用しています。ご自身で動画を作成したくない場合、または無料のGoogle Geminiユーザーの場合は、Flow TVで他のユーザーが作成した動画を視聴できます。

ウェブブラウザでFlowにアクセスしたら、「新規プロジェクト」をクリックして開始します。その後、プロンプトボックスの右上にある設定ボタンから使用するモデルを選択し、プロンプトを開始できます。レンダリングを行う前に、生成に必要なクレジット数も表示されます。

Googleフロー

Flowで動画を作成中。 クレジット:Lifehacker

ジュラシック・パークのシーンをもっと完璧に仕上げて、AI映画制作のキャリアを軌道に乗せようと、Veo 3でちゃんとしたフルクリップを作るために100クレジットを費やすことにしました。プロンプトに少しディテールを追加し、セリフもいくつか追加したところ、Veo 2の出力とほぼ同等のクオリティになりました。実は2世代から選べるようになっています。こちらとこちらでご覧いただけます。

ここでもいつもの問題が発生。AIジェネレーターはここで何をすべきか、あるいは他の動画で見たもの以上のシーンをどのように構築すべきか、よく分かっていないのです。勇敢な冒険者たちは、あるメンバーが「わあ…見てみて」とセリフを言った瞬間に間違った方向を向いてしまい、恐竜から木々まで、すべてがありきたりに見えてしまいます。

Flow と長編動画作成の違いは、生成された動画の「シーンに追加」をクリックするだけで、8秒単位のチャンクで構成された長編動画の作成を開始できることです。シーンは必要に応じて拡張したり並べ替えたりすることができ、同じキャラクターや環境がクリップ間で引き継がれます。

ジョン・ハモンドを登場させようとしたのですが、うまくいきませんでした。元のキャラクターはちゃんと動いていたのですが、新しいキャラクターがどこからともなく現れ、FlowがどういうわけかVeo 2に切り替えてしまったせいで、すべての音声が突然途切れてしまいました。さらに、途中でカメラが異常に揺れてしまいました。テクノロジージャーナリズムからAI映画監督にすぐに転向するのは、特に月収1,000クレジットでは無理なのは明らかです。

Veo 3はまだ初期段階にあり、GoogleはVeo 3とFlowインターフェース全体に「実験的」というラベルを付けています。しかし、現時点では、一貫性とリアリティを兼ね備えたものを実現するには、多くのクレジットとプロンプトの改善に多くの時間を費やす必要があります。ソーシャルメディアのフィードに溢れている洗練されたAI動画には、おそらく何時間もの努力と試行錯誤が費やされているのでしょう。