ChatGPT画像をPhotoshop風に編集できるようになりました

DALL-E画像の一部を編集できるようになりました。クレジット：OpenAI

ここ1年ほどで、AIアートジェネレーターが次々と登場していることに、きっとお気づきでしょう。まるで本物の写真のような画像や、人間が描いたアート作品のような画像を作成できる、超高性能エンジンです。時が経つにつれ、AIアートジェネレーターはますます強力になり、機能もどんどん追加されています。今ではMicrosoftペイントにもAIアートツールが搭載されています。

月額 20 ドルを支払っている ChatGPT Plus メンバーが利用できる DALL-E AI 画像モデルの新機能として、Photoshop のように画像の一部を編集する機能があります。画像の 1 つの要素を変更するために、まったく新しい画像を再生成する必要はなくなりました。調整したい画像の一部を DALL-E に示し、新しい指示を与え、他の部分はそのままにしておくことができます。

これはAIアートの重要な限界の一つを克服しています。それは、たとえ同一のプロンプトを用いていても、それぞれの画像（および動画）が完全に独自で異なるものになってしまうという点です。そのため、画像間で一貫性を持たせたり、アイデアを微調整したりすることが困難です。しかし、いわゆる拡散モデルに基づくこれらのAIアートクリエイターには、克服すべき多くの限界が残されています。ここでその限界について見ていきましょう。

ChatGPTで画像を編集する

ChatGPT Plusの加入者なら、ウェブまたはモバイルでアプリを起動し、好きなものの写真をリクエストできます。サイバーパンクな世界で事件を解決する漫画の犬探偵、中景に孤独な人物、頭上に嵐の雲が広がる丘陵地帯など、何でも構いません。数秒後には、希望の写真が届きます。

画像を編集するには、生成された画像をクリックし、右上隅にある選択ボタン（ペンで線を引くようなボタン）をクリックします。次に、左上隅のスライダーを使って選択ツールのサイズを調整し、画像の変更したい部分を描画します。

ChatGPT画像

ChatGPTの編集インターフェース Credit: Lifehacker

この点が大きな進歩です。画像の一部はそのまま残し、選択範囲のみを更新できます。以前は、画像の特定の部分を変更するように求めるフォローアッププロンプトを送信すると、画像全体が再生成され、元の画像とは大きく異なる結果になる可能性がありました。

選択が完了すると、画像のハイライト部分のみに新しい指示を入力するよう求められます。これらのAIアートツールではよくあることですが、より具体的に指示するほど、より良い結果が得られます。例えば、人物をもっと幸せそうに（あるいはもっと幸せそうでないように）見せたい、あるいは建物の色を変えたいなど、様々な指示を出すことができます。すると、リクエストした変更が適用されます。

犬の画像編集

成功！ChatGPTとDALL-Eが犬を交換しました。クレジット：Lifehacker / DALL-E

私の実験によると、ChatGPT と DALL-E は、Google の Magic Eraser などのアプリで見られるのと同じ種類の AI トリックを展開しているようです。つまり、シーン内の既存の情報に基づいて背景をインテリジェントに塗りつぶし、選択範囲外のすべてをそのまま残そうとします。

選択ツールとしてはそれほど高度なものではなく、境界線やオブジェクトの端に不一致が見られることが確かにありました。選択の際にこれほど多くの制御が可能であることを考えると、これは当然のことと言えるでしょう。編集機能は多くの場合問題なく機能しましたが、常に信頼できるというわけではありません。これはOpenAIが今後改善に努める点であることは間違いありません。

AIアートが限界を迎える場所

新しい編集ツールを使って色々なトリックを試してみました。牧草地に立つ犬の色と位置を変えるのはうまくいきましたが、城の城壁に立つ巨人のサイズを小さくするのはあまりうまくいきませんでした。巨人は城壁の破片のぼやけた中に消えてしまい、AIが巨人の周囲を塗りつぶそうとしたようですが、あまりうまくいきませんでした。

これまでのところどう思いますか?

サイバーパンクの世界で車をドロップするようにリクエストしたのですが、車は表示されませんでした。別の城のシーンでは、空飛ぶドラゴンを向きを変えて反対方向に向け、緑から赤に変え、口から炎を出すようにリクエストしました。しばらく処理した後、ChatGPTはドラゴンを完全に削除しました。

ドラゴンの画像編集

失敗！ChatGPTとDALL-Eはドラゴンを変更する代わりに消去しました。クレジット：Lifehacker / DALL-E

この機能はまだ新しく、OpenAIは今のところ人間の画像編集を置き換えることができるとは主張していません。なぜなら、それは明らかに不可能だからです。今後改善されるでしょうが、これらの失敗は、AIが生成する特定の種類のアート作品において、どこに課題があるのかを示すのに役立ちます。

DALL-Eやそれに類似したモデルが得意とするのは、学習済みの数百万（？）もの城に基づいて、例えば城の近似値を表現するピクセル配置方法を把握することです。しかし、AIは城とは何かを理解していません。幾何学や物理的な空間を理解していないからです。そのため、私の城にはどこからともなく小塔が突き出ているのです。建物や家具など、適切にレンダリングされていないオブジェクトを含むAI生成アートの多くで、この現象に気付くでしょう。

無地の白い背景

かなり白いですが、「無地」とは程遠いです。クレジット：Lifehacker / DALL-E

これらのモデルの本質は、実際には何を示しているのか（まだ）理解していない確率マシンです。OpenAI Soraの動画の多くで、人物がどこかへ消えてしまうのはそのためです。AIは人物を追跡しているのではなく、非常に巧妙にピクセルを配置しているからです。また、AIが異なる人種のカップルの画像を生成するのに苦労しているという記事を読んだことがあるかもしれません。画像の学習データに基づくと、同じ人種のカップルの方が可能性が高いからです。

最近注目されているもう一つの奇妙な点は、これらのAIアートジェネレーターが真っ白な背景を作成できないことです。これらは多くの点で非常に賢いツールですが、私たち人間と同じように「考える」わけではなく、人間のアーティストと同じように理解しているわけでもありません。AIアートジェネレーターを使用する際には、この点を念頭に置くことが重要です。

Mofope

This author has no bio yet.

ChatGPTで画像を編集する

AIアートが限界を迎える場所

Mofope

You May Also Like