そう、これがAIだ。 クレジット:OpenAI
OpenAIは、昨年5月に導入されたGPT-4oモデルのアップデートの一環として、ChatGPTの画像生成機能を大幅に強化しました。新しく改良されたAI画像生成ツールは、すべてのChatGPTユーザーに公開されています。ただし、無料アクセスには制限があり、月額20ドルのChatGPT Plusプランではさらに高い制限が設定されています。とはいえ、これは3月25日の最初のリリース時と比べると改善されています。無料画像生成ツールは、リリース後すぐにサーバーの負荷が高かったため削除されました。
現時点では、無料ユーザーとPlusユーザーの制限は明らかではないが、CEOのサム・アルトマン氏は以前、無料ユーザーに1日3枚の画像を許可することを目標としていると投稿していた。
ChatGPTインターフェースから画像を生成することは以前から可能でしたが、裏ではDALL-E 3画像モデルに処理を委託していました。今後はGPT-4oが全てを処理するため、より一貫性のあるネイティブな体験が実現します。特に、スタジオジブリのアートスタイルを模倣する機能はユーザーから好評を得ていますが、この傾向には多くの反発も見られました。
純粋に技術的な観点から見ると、AI画像作成ツールがこれまで苦労してきた領域、例えばテキストのレンダリング、画像間での文字の一貫性の維持、図の描画など、多くの改善が見られます。OpenAIによると、より「正確で、精密で、写真のようにリアルな」結果が期待できるとのことです。
よりリアルで正確な画像
生成された画像は毎回完璧ではありませんが、かなり近づいてきています。 クレジット:Lifehacker via ChatGPT
AIで作成された画像には、アルゴリズムによって作られたと思わせるような人工的な光沢が見られることが多いですが、GPT-4oの画像ではそれが目立たないはずです。OpenAIが公開したデモ画像の1つには、ホワイトボードに文字を書く女性と、そこに映る風景が写っています。どれも非常にリアルですが、画面下部の小さなキャプションには、ChatGPTがこのプロンプトで行った8回の試行のうち、これが最高の結果だったことが記されています。
OpenAIによると、ユーザーが作成するAIアートは、与えられた指示に忠実に従うようになるという。つまり、特定の場所に特定のオブジェクトを配置したい場合や、特定の位置に人物を配置したい場合、これらの指示はより忠実に実行されるようだ。特に印象的なサンプル画像の一つは、ChatGPTによってレンダリングされた4コマ漫画で、明らかなエラーや矛盾は見られない。
ChatGPTを使って、オースティンの小説をコミック風にし、庭付きの大邸宅のフォトリアリスティックな画像を作成してみました。結果は完璧とまではいかないまでも、非常に印象的でした。レンダリングには時間がかかりますが(通常、数秒ではなく数分かかります)、ChatGPTが以前生成していた画像よりもはるかに優れています。
テキストと図表が大幅に改善されました
テキストはもはや大きな問題ではないので、偽の本の表紙を簡単に作ることができます。 クレジット:Lifehacker via ChatGPT
AI にテキストや図表を正確にレンダリングさせることは、長い間の課題でした。これらのツールの構築方法により、アルファベットの正確なコピーや一連の長方形と矢印を再現するよりも、トレーニング済みの画像を考案してリミックスする方がはるかに優れています。
新しいGPT-4oモデルは、テキストと図を非常に詳細かつ正確にレンダリングできるため、奇妙な間違いや矛盾はそれほど多く見られません。OpenAIのショーリールには、メニュー、招待状、搭乗券、そしてニュートンのプリズム実験を説明する図が含まれており、すべて単一のテキストプロンプトから生成されました。
ChatGPTにDNAを分かりやすく解説したインフォグラフィックと、タイトルと著者名を指定した本の表紙の制作を依頼したところ、依頼内容にほぼ忠実に仕上げてくれました。グラフィックはシンプルながらも正確で(依頼通り)、本の表紙は店頭で見かけるような見た目でした。そして、画像に奇妙なアーティファクトや矛盾が一切なかったことも、同様に重要な点です。
これまでのところどう思いますか?
一貫性と編集
教授、あなたですか?キャラクターとイメージの一貫性はまだ改善の余地がありますね。 クレジット:Lifehacker via ChatGPT
ChatGPTの画像編集の限界については以前記事を書きましたが、これもアップグレードされた点の一つです。画像間でキャラクターやシーンの一貫性を保ちやすくなり、画像の一部だけを調整して残りはそのままにしたり、画像のレイヤーを重ねたりしやすくなりました。必要に応じて透明な背景を作成したり、16進コードを使って色を指定したりすることも可能です。
ChatGPT がユーザー独自の画像を受け入れてリミックスし、他の情報 (Web やトレーニング データから) を組み込むことができる点でも他の改善が見られます。デモの OpenAI 画像の 1 つは、「サンフランシスコがなぜこんなに霧が濃いのかを説明する視覚的なインフォグラフィックを作成してください」というプロンプトから作成され、ChatGPT はまさにそれを実現しました (まあ、3 つの中でベスト 1 です)。
私自身のテストでは、ChatGPTは画像編集能力が大幅に向上し、異なるスタイルの画像をリミックスする能力もかなり優れていると感じました。しかし、画像間の一貫性を保つのはまだ多少苦労しており、特に複雑なオブジェクトやキャラクターの場合は顕著です。この点は以前より確実に向上していますが、編集をやり過ぎてしまう傾向があり、画像の微調整や、複数の画像を一致させる必要があるシリーズの作成にはAIの有用性が低下しています。
著作権と安全性の問題
図表は以前よりずっと意味不明瞭ではなくなり、より正確になりました。 クレジット:OpenAI
安全性に関しては、OpenAIによると、生成された画像にはすべてAI生成画像であることを示すC2PAメタデータが付与されているとのことですが、このメタデータはスクリーンショットなどで簡単に削除できます。また、OpenAIによると、このAIジェネレーターは「児童性的虐待素材や性的ディープフェイク」の作成や、コンテンツポリシーに違反するその他の誘導行為を拒絶するように構築されています。
これは明らかにAI画像にとって大きな前進です。この技術の向上は時に実に驚くべきもので、AIの特徴やその技術がもたらすエラーの多くが消えつつあります。しかしながら、これは私たち皆が突き進む未来について、いくつかの大きな疑問を提起しています。偽造が容易に作られ、創造的な仕事は人間ではなくロボットによって行われ、そして私たちは絵を描いたり、文章を書いたり、コードを一行書いたりする能力を皆失ってしまう未来です。そして、生成型AIはどのようにしてより多くのトレーニングデータを見つけるのでしょうか?