Stability AIからStable Diffusion 3が公開開始されました!
この記事ではStable Diffusion 3のモデルの中から、ローカルPCで実行可能なStable Diffusion 3 MediumをComfyUIで動作させる手順を紹介します。
Stable Diffusion 3 Mediumの使用は公式からComfyUIが推奨されています。
Stable Diffusion 3とは?
Stable Diffusion 3は、Stability AIが開発した高性能な画像生成AIモデルです。
テキストの指示に基づいて、高品質な画像を生成できます。
モデルは、複数主題のプロンプト、画質、スペリング能力などのパフォーマンスが大幅に向上した、高性能な画像生成モデルです。
Stable Diffusion 3公式サイト
主な特徴は以下の通りです。
- 膨大なパラメータ数(800Mから8B)
- 複数主題プロンプトで画像生成可能
- 豊富なテキストエンコーダー
なんのこっちゃよくわからないと思います。
簡単にまとめると、従来のモデルよりもテキストに忠実な画像が生成可能になりました。
SDXLモデルでは学習画像の解像度が上がり、生成画像が高画質になりましたがプロンプトによる画像の制御が難しい印象でした。
この弱点がStable Diffusion 3では解消されています。
準備するもの
Stable Diffusion 3 MediumをComfyUIで使用するには以下、事前準備が必要です。
ComfyUIのインストール
Stable Diffusion 3 Mediumにネイティブ対応しているComfyUIをインストールする必要があります。
ComfyUIのインストール方法は以下の記事で紹介しています。
ComfyUIのアップデート
Stable Diffusion 3 Mediumを使用するには最新版のComfyUIが必要です。
ComfyUIをアップデートする場合は、「ComfyUI Manager」が簡単でおすすめです。
ComfyUI Managerを起動して、「Update All」もしくは「Update ComfyUI」をクリックするだけです。
ComfyUI Managerを使ったアップデート方法については、以下の記事で紹介しています。
Stable Diffusion 3 Mediumモデルの導入
事前準備が整ったら、必要なモデルをインストールしましょう。
Stable Diffusion 3 Mediumを利用するには連絡先の登録が必要です。
Huggin Faceのページにジャンプして、「sd3_medium.safetensors」をダウンロードします。
ダウンロードしたファイルは「ComfyUI」→「models」→「checkpoints」フォルダに保存します。
Huggin Faceのページから、「text_encoders」フォルダに移動して以下、テキストエンコーダーをダウンロードします。
- clip_g.safetensors
- clip_l.safetensors
- t5xxl_fp8_e4m3fn.safetensors
t5xxl_fp8_e4m3fn.safetensorsの変わりにsd3_medium_incl_clips_t5xxlfp16.safetensorsを使用しても構いません
fp8は軽量モデルですが、テストした結果、品質の影響は軽微なのでfp8モデルをおすすめします
ダウンロードしたファイルは「ComfyUI」→「models」→「clip」フォルダに保存します。
※モデルについてはHugging Faceの他、Civitaiでも公開されています
Stable Diffusion 3 Mediumモデルで画像生成する方法
それではStable Diffusion 3 Mediumを使って画像生成してみましょう。
今回は公式のワークフローを使ってみます。
Hugging Faceで以下のワークフローが公開されています。
- sd3_medium_example_workflow_basic.json 通常のワークフロー
- sd3_medium_example_workflow_multi_prompt.json 複数主題プロンプトを体験できるワークフロー
- sd3_medium_example_workflow_upscaling.json 生成画像をアップスケールするワークフロー
今回は基本となるsd3_medium_example_workflow_basic.jsonを使用します。
ダウンロードしたワークフローファイルは適当なフォルダに保存します。
※次項でダウンロードしたワークフローをロードします
ワークフローの端に表示されているコマンド一覧から「Load」をクリックします。
先程ダウンロードしたワークフロー「sd3_medium_example_workflow_basic.json」を選択します。
ダウンロードした各種モデルを選択します。
チェックポイントモデルの選択
ワークフローの左上にある「Load Checkpoint」ノードで先程ダウンロードした「sd3_medium.safetensors」を選択します。
テキストエンコーダーの選択
ワークフローの左上にある「TripleCLIPLoader」ノードで先程ダウンロードしたテキストエンコーダーを選択します。
上から順番に
- clip_g.safetensors
- clip_l.safetensors
- t5xxl_fp8_e4m3fn.safetensors
を選択します。
コマンド一覧から「Queue Prompt」をクリックします。
初回はモデルロードするため、画像生成まで時間がかかります。
画像生成のパラメータが設定済みなので同じ画像が生成されます。
設定変更する場合は以下手順で可能です。
画像生成パラメータの変更方法を確認する
- seed値
-
ワークフローの左下にある「Seed」ノードで変更可能です。
- 解像度、バッチサイズの変更
-
ワークフローの左下にある「EmptySD3LatentImage」ノードで変更可能です。
解像度は約 1 メガピクセル、幅/高さは 64 の倍数で設定します。
- プロンプトの設定
-
ワークフローの左下にある「CLIP TextEncode(Prompt)」ノードで変更可能です。
- ネガティブプロンプトの設定
-
ワークフローの左下にある「CLIP TextEncode(Negative Prompt)」ノードで変更可能です。
- ステップ数、サンプラーなどの設定
-
ワークフローの中央右にある「KSampler」ノードで変更可能です。
Stable Diffusion 3 Mediumで生成した画像を紹介
Stable Diffusion 3 Mediumで生成したサンプル画像を紹介します。
プロンプトも掲載しているのでご参考ください。
プロンプトで画像内にテキストを配置することが可能ですが、SD3では精度がかなり向上しています。
その他、手の生成については従来通り苦手なようで・・・克服できていません。
ワークフロー「sd3_medium_example_workflow_basic.json」で生成
使用したプロンプトを確認する
a female character with long, flowing hair that appears to be made of ethereal, swirling patterns resembling the Northern Lights or Aurora Borealis. The background is dominated by deep blues and purples, creating a mysterious and dramatic atmosphere. The character's face is serene, with pale skin and striking features. She wears a dark-colored outfit with subtle patterns. The overall style of the artwork is reminiscent of fantasy or supernatural genres
使用したプロンプトを確認する
1girl, HDR, 4k, 8k resolution, 10bit, candid RAW portrait photo of a woman on the train station at night, blonde hair, upper body,
RAW photo, masterpiece, photorealistic, best quality, ultra high res, extreme detailed illustration, looking towards the camera lens,
office suit,
使用したプロンプトを確認する
1girl, HDR, 4k, 8k resolution, 10bit, candid RAW portrait photo of a woman holding a piece of note on the park at night, black hair, upper body,
handwritten text ("SD3 Test") on this note,
RAW photo, masterpiece, photorealistic, best quality, ultra high res, extreme detailed illustration, looking towards the camera lens,
white one-piece dress,
使用したプロンプトを確認する
1girl, HDR, 4k, 8k resolution, 10bit, anime style of a woman on city at night,multiple hair, upper body,illustration,
anime, masterpiece, photorealistic, best quality, ultra high res, extreme detailed illustration, looking towards the camera lens,
jacket, head set, visor,
cyberpunk,neon,side shot,
ワークフロー「sd3_medium_example_workflow_multi_prompt.json」で生成
使用したプロンプトを確認する
the background is dominated by deep red and purples, creating a mysterious and dramatic atmosphere similar to a volcanic explosion
まとめ
今回はローカルPCのComfyUIでStable Diffusion 3 Mediumを実行する方法を紹介しました。
SDXLで既に画質は十分でしたが、SD3ではプロンプトの再現性がさらに向上した印象ですね。
この記事ではComfyUIでSD3を使う方法を紹介しましたが、Automatic1111ではブランチ版が公開されているので、後ほど記事を公開する予定です。
コメント