3つの大手AI画像ジェネレーターをテストした結果、1つが(かろうじて)トップに立った

3つの大手AI画像ジェネレーターをテストした結果、1つが(かろうじて)トップに立った
3つの大手AI画像ジェネレーターをテストした結果、1つが(かろうじて)トップに立った

このページのリンクから手数料が発生する場合があります。


GoogleのAIアプリ「Gemini」は、8月に「Nano Banana」と呼ばれる無料の画像生成機能を追加して以来、Apple App StoreとAndroid Storeの両方で「ダウンロード数ランキング」のトップを走り続けています。もちろん、スマートフォン上で画像を作成できるAIアシスタントを備えた巨大テクノロジー企業は、Googleだけではありません。

どのモバイルAI画像生成ツールが優れているのかを知りたかったので、GoogleのGemini(Nano Banana搭載)、OpenAIのChatGPTのiPhone版、そしてMetaのMeta AIという、大手3社を、それほど古風ではない画像生成の対決で競わせてみました。最終的に勝者は出ましたが、結果は必ずしも明確ではありませんでした。

これらのツールをどのようにテストしたか

平均的なユーザーが作成したい画像を生成するために、各アプリが同じ基本的なプロンプトをどのように処理するかを比較したいと思いました。

写真編集の才能を試すため、モデルたちに写真から物体を取り除いたり、写真の背景を拡大したりしてもらいました。また、より直接的な用途での有用性をテストするため、パンフレットの表紙を作成してもらいました。さらに、「創造性」をテストするため、有名人をシュールな状況に置いたり、1コマ漫画を描いたり、フランケンシュタインがスタンダップコメディをしている絵を描いてもらったりしました。

それがどのように起こったかは次の通りです。

画像からオブジェクトを削除する

ソース画像には、下の母の写真と「被験者の手からカップを外してください」というプロンプトを使用しました。

ベティ・ジョンソン

クレジット: スティーブン・ジョンソン

結果は次のとおりです。

ジェミニ天体の除去

ベティ・ジョンソン(ジェミニと共演)

クレジット: スティーブン・ジョンソン

ChatGPTオブジェクトの削除

ベティ・ジョンソン with ChatGPT

クレジット: スティーブン・ジョンソン

メタAIオブジェクトの削除

ベティ・ジョンソン メタAI

クレジット: スティーブン・ジョンソン

優勝者:ジェミニ

敗者:ChatGPT

3つのツールすべてがカップを消してくれたのに対し、Geminiは、母が今まさに良い点を指摘したという、かなり自然な、軽快なポーズの手を加えてくれました。それ以外は、Geminiは私のリクエスト通り、元の画像をほぼそのまま残してくれました。

Meta AI は指を漫画風にし、手を「カップを持っている」不自然なポーズのままにして、誰かが下手な Photoshop で加工したような画像にしました。

ChatGPTがここで何をしているのかよく分かりません。カップだけでなく、母の右腕全体を消してしまったようです。シワを滑らかにし、生え際の髪の毛を消し、カラーパレット全体をオレンジ寄りに変え、母の視線の方向まで微妙に変えてしまいました。私は何も頼んでいないのに、全部で写真が台無しになってしまいました。ChatGPTさん、母をAIグールにしてしまったなんて、やりすぎです

写真の背景を拡大する

「背景を拡大する」チャレンジでは、この自撮り写真と「この画像の背景を拡大して、汗染みを消してください」というプロンプトを使用しました。

スティーブン・ジョンソン

クレジット: スティーブン・ジョンソン

ジェミニ背景拡大

スティーブン・ジョンソン

クレジット: スティーブン・ジョンソン

ChatGPTバックグラウンド拡張

スティーブン・ジョンソン ChatGPT

クレジット: スティーブン・ジョンソン

メタ背景拡張

メタAI

クレジット: スティーブン・ジョンソン

優勝者:GeminiとChatGPT

敗者:メタAI

Meta は背景拡張を行わないため、競合相手は実際には 2 つしかありません。

Geminiは今回、より野心的な機能を発揮しました。背景をさらに拡大し、自転車と自転車ラックの「見えなかった」部分を実際の姿に近づけて、うまく再現してくれました。遠くの車まで追加してくれました。しかし、なぜか頭の後ろの山の形が変わってしまい、赤みを抑えてしまいました。より魅力的に見えるかもしれませんが、これは要望ではありませんでした。

ChatGPT は背景の拡張が控えめで、色の配色は変えなかったものの、多くの AI 画像に共通する奇妙なプラスチックのような見た目を肌に与えてしまいました。

これは引き分けだと思う​​。全員十分な仕事ができた。Meta AI、君を除いては。

パンフレットの表紙用の画像を生成する

このテストでは、各ツールにもっと「創造性」を持たせると同時に、「カントリークラブのパンフレットを作成しています。2人の金持ちがテニスをしている絵画のような画像を作成してください。」というプロンプトを通じて、明確なコンテキストと推奨スタイルも提供しました。

ジェミニのパンフレットの表紙

AIテニス選手

クレジット: スティーブン・ジョンソン - ジェミニ

ChatGPTパンフレットの表紙

AIテニス選手

クレジット: スティーブン・ジョンソン - ChatGPT

Meta AIのパンフレットの表紙

AIテニス選手

クレジット: スティーブン・ジョンソン - Meta AI

優勝者:ChatGPT

敗者:メタAI

勝者は明らかです。ChatGPTの出力は要求通り「絵画的」で、2人の人物の配置はまるでミックスダブルスのフレンドリーな試合を思わせます。

ジェミニの「金持ち」の一般的な描写は、特に背景に大邸宅が描かれているので、ちょっとおかしいと思いましたが、絵画ではそうは見えませんし、テニスではそんな風にプレーする人はいません。

Metaの「テニスをする人々」の描写は面白くない。まるで注目を集める離婚訴訟の証拠物件のようだ。家庭内暴力は冗談ではない。

あり得ない状況に陥った有名人

各プログラムが実際の人物(安全のために死者)の肖像の作成をどのように処理するかをテストするために、私は各ツールに次のようなプロンプトを入力しました。「洞窟探検をしているデビッド・ボウイの写真を生成してください。」

ジェミニによるボウイの洞窟探検

デヴィッド・ボウイの洞窟探検

クレジット: スティーブン・ジョンソン-ジェミニ

ChatGPTによるボウイの洞窟探検

「本物の写真」に関するChatGPT

クレジット: ChatGPT

Meta AIによるボウイの洞窟探検

デヴィッド・ボウイの洞窟探検

クレジット: スティーブン・ジョンソン-Meta AI

優勝者:Meta AI

敗者:ChatGPT

今回はメタの圧勝です。デヴィッド・ボウイの写真をお願いしたら、デヴィッド・ボウイらしい写真が返ってきました。メタが年老いたボウイを選んだのは良いのですが、昔のボウイではなく、むしろ年老いたボウイを選んだのは、まるで1989年の『ティン・マシーン』の商業的失敗の後、頭をすっきりさせて将来を考えるために洞窟探検を始めたかのようです。

ジェミニがここで何をしようとしているのかよく分からない。クリスタルでできたライトセーバーを持ち、ライトのついたザルを帽子代わりにかぶったボウイ? ボウイはかっこよかったよ。

しかし、ChatGPT は臆病でまったく画像を生成しないため、大きな敗者です。

1コマ漫画を描く

AIにジョークを言ってもらうのが好きです。人間がロボットより優れている点がまだあるという確固たる証拠を見たいからです。AIに実際に面白いことを期待するのは、たとえ話が思いつかなかったのでchatGPTに聞いてみたところ、「…金魚に燃えるマシュマロをジャグリングしながら量子物理学の説明をさせるのと同じくらい愚かなことです」と返ってきました。ハハハ。

とにかく、AIにガイドラインと面白いもののモデルを与えれば、いい漫画が描けるかもしれないと思ったんです。それで、私が使ったプロンプトはこうです。「『ファーサイド』風の1コマ漫画を描いています。『ラリーが仕事に遅刻した本当の理由』というキャプション用の画像を生成してください。」

これまでのところどう思いますか?

結果は次のとおりです。

ジェミニの「The Far Side」

ジェミニによる1コマ漫画

クレジット: スティーブン・ジョンソン-ジェミニ

ChatGPTによる「The Far Side」

ChatGPTによる1コマ漫画

クレジット: ChatGPT

Meta AIによる「The Far Side」

Meta AIによるファーサイド

クレジット: Meta AI

優勝者:ゲイリー・ラーソン

敗者:コメディそのもの

これらのコミックはどれも面白いですか?いいえ。でも、ジェミニが一番面白い結果をもたらしてくれたと思います。ジョークでありながら、考えさせられる部分もありました。ラリーがガチョウの誕生日に遅刻したというジョークなら、なぜドアに穴が開いているのでしょう?ガチョウはなぜあんなに怒っているのでしょう?お金でいっぱいのスーツケースとUFOがあるのはなぜでしょう?「ファーサイド」も時々理解できませんでした。ジェミニがゲイリー・ラーソンの画風を全く真似せず、「ゲイリー・ラーソン」という署名を入れているのも評価できます。

Meta AIのコミックはとにかく手抜きだ。私の指示を読んでいるのかどうかさえ疑わしい。

ChatGPTの結果は、直接的なコピーではないものの、 『ファーサイド』に最も似ています。署名のスペルも正確です。しかし、元の素材の奇妙な雰囲気は全く捉えられていません。結局のところ、Geminiの型破りなアプローチよりもはるかに分かりやすく、実用的です。

また、ここでMeta AIやGeminiと比べてChatGPTのiPhoneアプリの主な制限の一つに遭遇したことも特筆に値します。その日のトークンが足りなくなり、画像を作成するのに24時間待たなければなりませんでした。出力品質はさておき、繰り返し作業して結果を改善したい場合や、とにかくたくさんの画像を作成したい場合、無料版で1日5枚しか使えないのは、あなたの創造性を阻害することになります。解決策としては、月額19.99ドルの有料版にアップグレードすることです。

スタンダップコメディを演じるフランケンシュタイン

次に、これらのプログラムに、フランケンシュタインがスタンドアップコメディをしている画像を生成してもらいました。というのも、私はそういう人間だからです。課題は「フランケンシュタインがスタンドアップコメディをしている、写真のようにリアルな画像を生成してください」です。

結果は次のとおりです。

ジェミニによるスタンダップコメディを演じるフランケンシュタイン

ジェミニによるスタンダップコメディを演じるフランケンシュタイン

クレジット: スティーブン・ジョンソン - ジェミニ

Chat GPTによるスタンダップコメディを披露するフランケンシュタイン

Chat GPTによるスタンダップコメディを披露するフランケンシュタイン

クレジット: スティーブン・ジョンソン ChatGPT

Meta AIによるフランケンシュタインのスタンドアップコメディ

Meta AIによるフランケンシュタインのスタンドアップコメディ

クレジット: スティーブン・ジョンソン-Meta AI

優勝者:全員!

どれが一番好きかは選べません。ChatGPTはプロンプトに最も忠実に従い、表情豊かなフランケンシュタインが楽しい夜を過ごしている様子を描いていました。

ジェミニは台本から大きく外れましたが、時には自分が何を望んでいるのか正確に分からないこともあり、結局、2つの世界の間に閉じ込められたような、途方に暮れた表情のモンスターと人間とドラキュラの両方で構成された群衆を望んでいたことがわかりました。

Meta AIの哀れなモンスターは「俺たちは死んだも同然だ!」と言っているようで、私も同感です。つまり、三つ巴の同点です。

: 「フランケンシュタイン」は怪物の名前ではなく、医者の名前であることを指摘した AI は 1 つもありませんでした。

究極のテスト:再帰画像生成

すべてのブログ投稿には添付する画像が必要なので、最終的な究極のテストとして、この記事全体を「このブログ投稿に添付する画像を生成してください」というプロンプトとともに Gemini、ChatGPT、Meta AI に入力しました。

ジェミニ再帰テスト

ジェミニ再帰テスト

クレジット: スティーブン・ジョンソン-ジェミニ

ChatGPT再帰テスト

ChatGPT再帰テスト

クレジット: スティーブン・ジョンソン

メタAI再帰テスト

メタAI再帰テスト

クレジット: スティーブン・ジョンソン - Meta AI

優勝者:ジェミニ

敗者:アート

Meta AI は、密かにテニスを家庭内暴力に例えようとしているようで、ChatGPT のグリッド アプローチは堅苦しいですが、少なくとも課題を理解した点では Gemini に感謝したいです。

(本当の試練は、Lifehacker の編集者がこのページのトップに画像をそのまま残すか、それとも「スティーブ、そのゴミをすぐに削除してください」という簡潔なメッセージを私に送ってくるかだ。)

総合優勝者:ジェミニ(ただし、大差ではない)

みんながNano BananaをいじるためにGeminiをダウンロードするのには理由があります。本当に素晴らしいからです。完璧ではありませんが(私のテストでは、ChatGPTの画像生成エンジンの方が様々なスタイルのアートをゼロから生成するのに優れていました)、Geminiは驚くほど簡単に、そして多くの場合、思い通りの写真を作成できます。

Geminiは無料ですが、ChatGPTのアプリは写真が無制限で月額19.99ドルかかります。Meta AIも無料で、その成果にはちょっと面白いところがありますが、他の2つのモデルに比べてプロンプトを正しく理解できないことが多く、背景の拡大などの便利な機能もいくつかありません。(ただし、Bowieの場合には良い結果を出しました。)