はじめに
この記事では、OpenDalleを使ってStable Diffusion WebUIで画像生成する方法を紹介します。
生成された画像の例も掲載しており、実際にどのような画像が生成されるのかを確認できます。
- OpenDalleの特徴
- OpenDalleのインストール方法・使い方
OpenDalleとは?
OpenDalleは、DALL-E 3のようなプロンプトに忠実に再現することを目指したモデルです。
DALL-E 3は有料ですが、OpenDalleは名前の通り無料で使用できる点も特徴です。
プロンプトの理解度はSDXLを超えているとされ、DALLE-3 に一歩近づいているようです。
独特なプロンプトを使うことで、今までにないような独特な画像を生成できるよ
DALL-E 3とは?
DALL-E 3は、OpenAIが開発したAIシステムの1つで、自然言語の説明に基づいて現実的な画像やアートを作成できます。
DALL-E 3は、DALL-E 2とChatGPTをベースに構築されたテキストから画像を生成するモデルであり、高度な詳細を理解し、正確な画像を生成できます。
OpenDalleのインストール方法
OpenDalleはcivitaiとHugging Faceからダウンロード可能です。
モデルのインストールについては以下の記事で解説しています。
OpenDalleをStable Diffusion WebUIで使ってみた
今回はStable Diffusion WebUI上でOpenDalleを使って画像生成してみました。
Stable Diffusion WebUIをインストールしていない方は、以下の記事で解説しているのでインストールしてみてください。
公式の推奨設定は以下の通りです。
- CFGスケール 7~8
- ステップ数 60~70(早く生成したい場合は35)
- サンプラー DPM2
- スケジューラ Karras
特にプロンプトに注目してください。
アイキャッチ画像もOpenDalleで生成しています。
サンタ猫
使用したプロンプトを確認する
Cat riding a sleigh and wearing a Santa hat,
sky, sled flying in the sky
サンタを猫で指定したつもりが、トナカイも猫になりました。
今までのSDXL系モデルと比較すると、プロンプトに忠実でお利口な感じがします。
ダンスを踊るおじいさん
使用したプロンプトを確認する
An old man happily dancing a Cossack dance,
in front of the fireplace
コサックダンスは学習されていないようですが、それ以外はプロンプト通りですね。
ダブルチーズバーガー
使用したプロンプトを確認する
Delicious double cheeseburger and french fries
料理の画像もテストしましたが、かなりレベル高いですね。
プロンプトにも忠実です。
ゴーカートに乗るゴリラ
使用したプロンプトを確認する
Gorilla enjoying a go-kart,
go kart running on water
非現実的なプロンプトを指定しましたが、バッチリな画像が生成できました。
ITDTMのロゴ
使用したプロンプトを確認する
((“IT DTM!”)text logo:1), cyberpunk
上のようなプロンプトで、テキストも生成できるのですが・・・テキストの忠実度はそれほど高くないようです。
まとめ
今回はStable Diffusion WebUIでOpenDalleを使う方法を紹介しました。
SDXL系のモデルのようですが、プロンプトに忠実で扱いやすいモデルでした。
SDXL系はあまりプロンプト通りに生成してくれないイメージですが、OpenDalleなら自由自在です。
用途別におすすめモデルを以下記事で紹介しています。
コメント