DALL·E 3とStableDiffusion (SDXL)の違い。比較で見える画像生成AIイラストの未来。OpenAI/ChatGPTでの画像生成は便利。

OpenAIが新しい画像生成AI｢DALL·E 3｣を発表しました

読み方は、DALL·E 3と書いてダリスリーと言います

DALL·E 3は、テキストから画像を生成することができ、ChatGPTとのシームレス（継ぎ目のない）な連携が特徴で、ChatGPT上で使うことが出来ます

ユーザーは、ChatGPTにアイディアを入力すると、プロンプトの自動生成を行ってくれたり、思い通りのが画像に近づけるための調整の相談を行うことが出来る様です

※以下はOpenAIが発表した原文です

When prompted with an idea, ChatGPT will automatically generate tailored, detailed prompts for Dall-E 3 that bring your idea to life

If you like a particular image, but it’s not quite right, you can ask ChatGPT to make tweaks with just a few words.
Open AI社

これにより、ユーザーのアイディアや想像をより繊細かつ正確にビジュアルコンテンツに変換することが可能になります。

OpenAIはDALL·E 2という画像生成AIを公開していて、DALL·E 3はそのアップグレード版となります

画像生成AIに関する記事は、以下のものがありますので参考にしてね

画像生成AIリンク一覧

この記事に、特に関連する記事はコチラ

【ChatGPT】友達や家族のように会話が可能に

ChatGPTで画像生成AIを行えるDALLE 3

DALL·E 3は、テキストから画像を生成する人工知能（AI）ツールの次期バージョンで、生成AIチャットボット「ChatGPT」に組み込まれています。

ChatGPTを利用して生成画像の作成や、調整ができるようになりました

2023年9月時点は、リサーチプレビューの段階だが、有料版のChatGPT PlusおよびEnterpriseの顧客には10月より、API経由およびLabsでは2023年10月に公開されました

【DALL·E 3】 ChatGPTでプロンプトを忠実に再現できる機能

DALL·E 3は、先代の「DALL·E」(2021)および「DALL·E 2」(2022)をベースに更に発展させ、より高度で精緻な機能とアーキテクチャ（AIの内部構造）を実装した画像生成AIです

画像生成AIを使った人は経験すると思いますが、初めてプロンプトから画像が生成された時には、驚きを感じますよね

しかし、思い通りの画像を生成しようとすると、キレイな画像は作れてもイメージした画像は作ることの難しさを感じ始めます

テキスト（プロンプト）から作るt2i（txt2img）には、さまざまな構造的な事情があります。

生成プロセスを実行しないと、どのような結果が得られるのか予測が難しく、この不確かな性質から、t2i（txt2img）は「呪文」とも称されています

この問題を解決するためにDALL·E 3では、ChatGPTの機能を利用することで、ユーザーは自分がイメージした通りの画像をAIに生成させる手助けを受けることができます。

これにより、ユーザーの具体的なビジョンやアイディアを、AIが正確に理解し、それを基にした画像を生成することが可能となります。

ChatGPTとのシームレスな（継ぎ目のない）連携

上記の理由からChatGPTとの統合により、ユーザーはプロンプトの作成や精緻化がより効率的かつ簡単になります。

これにより、ユーザーの要望をより正確に反映したビジュアルコンテンツの生成が可能になります。

この新バージョンは、「Midjourney」や「Stability.ai（Dreamstudio）」などの他のサブスクリプション型画像生成サービスに比べ、顕著な利便性と機能性を備えています。

StableDiffusion（SDXL）とDALL·E 3の比較は？

オープンソースのStableDiffusionや、新しいStable Diffusion XL（SDXL）との、比較はどうなのかな？

それぞれの画像生成を使ってきた個人的な意見ですが、好みはあるものの上手く住み分けが出来るのではないかと思います

初期の画像生成AIが登場した時よりも、さまざまな意見や倫理基準と権利の確保が求められた結果、各画像生成AIはバージョンアップの際に改善がされてきました

StableDiffusionも例外でなく、諸問題が起こる様な画像生成を行えなくなってきています

ただ、StableDiffusion（SDXL）は、web上で動くサブスクリプションのサービス(DALL·E 3など)よりは、自由度は高いかと思います

例えば、Midjourneyですとブロック対象のプロンプトが入っていた場合には生成が行われない様になっていましたが、StableDiffusionですとブロックはされないが、表現がマイルドになりつつも生成は行えます

また、StableDiffusionはユーザーによる追加学習させることが豊富にできるので、コントロールは難しくなるものの好みの画像を生成しやすい

DALL·E 3は、言語モデルの入ったマルチモーダルの生成AIなのでプロンプトの作りやすさ、ユーザーの糸の反映しやすさがあげられます

画像のテイストは、それぞれの特徴があります

詳しくは次の項目で、お話します

【DALL·E 3】画像生成AIの倫理基準と権利の確保　

DALL·E 3は、前モデル同様に、暴力的、成人向け、憎悪的なコンテンツの生成、特定の人物やキャラクターの描写、また存命のアーティストのスタイルの模倣を拒否する設計となっています。

OpenAIはさらに、AI生成画像の権利問題に対応するツールをテストし、権利処理の透明性を確保するための取り組みを行っています。

自分の生成した画像も、生成AIの学習に使われることを防ぐ仕組みも用意されています

他の生成AIと比べて、画像生成AIは企業さまが導入を見送っているように感じます

ChatGPTなどの言語生成AIは企業さまも、国の機関も導入を始めてるけど、画像生成AIは動きが少ないですね

一部の企業さまは、写真集や、雑誌の表紙に使ったり、webサイトのサムネイルにも使われることはありますが、まだあまり見かけません

これには、権利問題や元データの所在が明確でない所の問題に行きつきます

画像生成Iにおいては、生成された画像やコンテンツの出所や元データの所在が明確でない問題が存在しています

DALL·E 3は、AIによって生成されたコンテンツの出所を特定するための分類子を試験しているようですね

ディープフェイクの特定だけでなく、アーティストの作品が許可なく訓練モデルの学習に利用されたかどうかを追跡することは重要な意味を持ちます

著作権や訴訟リスクを回避し、安全な商用利用を可能にするための取り組みとして以下の取り組みをしています。

Adobe社はFireflyモデルの初期トレーニングにAdobe Stockの画像
オープンライセンスのコンテンツ
著作権の切れた一般コンテンツを使用しています。

これにより、営利目的での利用も安全かつ合法的に行えるよう配慮されています。

また、Adobe Fireflyは、生成したコンテンツに対して、条件に応じてアドビから知的財産の補償が提供されるよう設計されています。

APIを使ってブランド独自のスタイルやブランド言語でコンテンツを生成し、自動化を推進することもできます。Adobe Fireflyは、安全に商業利用できるように設計されており、Fireflyによるワークフローで生成したコンテンツによってはアドビから知的財産（IP）の補償を受けることができるため、企業は安心して本ソリューションを組織全体に導入することができます
https://www.adobe.com/jp/news-room/news/202306/20230608_firely-and-express-to-enterprises.html