Stable Diffusion 3 MediumをComfyUIでローカル環境に導入する方法

2024年6月23日

ComfyUIでStable Diffusion 3 Mediumを使って生成した画像を3枚並べているアイキャッチ画像

Stability AIからStable Diffusion 3が公開開始されました！

この記事ではStable Diffusion 3のモデルの中から、ローカルPCで実行可能なStable Diffusion 3 MediumをComfyUIで動作させる手順を紹介します。

Stable Diffusion 3 Mediumの使用は公式からComfyUIが推奨されています。

Stable Diffusion 3とは？

Stable Diffusion 3は、Stability AIが開発した高性能な画像生成AIモデルです。
テキストの指示に基づいて、高品質な画像を生成できます。

モデルは、複数主題のプロンプト、画質、スペリング能力などのパフォーマンスが大幅に向上した、高性能な画像生成モデルです。
Stable Diffusion 3公式サイト

主な特徴は以下の通りです。

膨大なパラメータ数(800Mから8B)
複数主題プロンプトで画像生成可能
豊富なテキストエンコーダー

なんのこっちゃよくわからないと思います。
簡単にまとめると、従来のモデルよりもテキストに忠実な画像が生成可能になりました。

SDXLモデルでは学習画像の解像度が上がり、生成画像が高画質になりましたがプロンプトによる画像の制御が難しい印象でした。
この弱点がStable Diffusion 3では解消されています。

準備するもの

Stable Diffusion 3 MediumをComfyUIで使用するには以下、事前準備が必要です。

ComfyUIのインストール

Stable Diffusion 3 Mediumにネイティブ対応しているComfyUIをインストールする必要があります。

ComfyUIのインストール方法は以下の記事で紹介しています。

ComfyUIのアップデート

Stable Diffusion 3 Mediumを使用するには最新版のComfyUIが必要です。

ComfyUIをアップデートする場合は、「ComfyUI Manager」が簡単でおすすめです。
ComfyUI Managerを起動して、「Update All」もしくは「Update ComfyUI」をクリックするだけです。

ComfyUI Managerを使ったアップデート方法については、以下の記事で紹介しています。

Stable Diffusion 3 Mediumモデルの導入

事前準備が整ったら、必要なモデルをインストールしましょう。

Stable Diffusion 3 Mediumを利用するには連絡先の登録が必要です。

STEP

チェックポイントモデルのインストール

Huggin Faceのページにジャンプして、「sd3_medium.safetensors」をダウンロードします。

sd3_medium.safetensorsモデルのダウンロードボタンをフォーカスしている

ダウンロードしたファイルは「ComfyUI」→「models」→「checkpoints」フォルダに保存します。

STEP

テキストエンコーダーのインストール

Huggin Faceのページから、「text_encoders」フォルダに移動して以下、テキストエンコーダーをダウンロードします。

clip_g.safetensors
clip_l.safetensors
t5xxl_fp8_e4m3fn.safetensors

t5xxl_fp8_e4m3fn.safetensorsの変わりにsd3_medium_incl_clips_t5xxlfp16.safetensorsを使用しても構いません
　fp8は軽量モデルですが、テストした結果、品質の影響は軽微なのでfp8モデルをおすすめします

ダウンロードしたファイルは「ComfyUI」→「models」→「clip」フォルダに保存します。

※モデルについてはHugging Faceの他、Civitaiでも公開されています

Stable Diffusion 3 Mediumモデルで画像生成する方法

それではStable Diffusion 3 Mediumを使って画像生成してみましょう。

今回は公式のワークフローを使ってみます。

STEP

ワークフローのダウンロード

Hugging Faceで以下のワークフローが公開されています。

sd3_medium_example_workflow_basic.json 通常のワークフロー
sd3_medium_example_workflow_multi_prompt.json 複数主題プロンプトを体験できるワークフロー
sd3_medium_example_workflow_upscaling.json 生成画像をアップスケールするワークフロー

今回は基本となるsd3_medium_example_workflow_basic.jsonを使用します。

ダウンロードしたワークフローファイルは適当なフォルダに保存します。

※次項でダウンロードしたワークフローをロードします

STEP

ワークフローをロードする

ワークフローの端に表示されているコマンド一覧から「Load」をクリックします。

先程ダウンロードしたワークフロー「sd3_medium_example_workflow_basic.json」を選択します。

STEP

モデルを選択する

ダウンロードした各種モデルを選択します。

チェックポイントモデルの選択

ワークフローの左上にある「Load Checkpoint」ノードで先程ダウンロードした「sd3_medium.safetensors」を選択します。

テキストエンコーダーの選択

ワークフローの左上にある「TripleCLIPLoader」ノードで先程ダウンロードしたテキストエンコーダーを選択します。

上から順番に

clip_g.safetensors
clip_l.safetensors
t5xxl_fp8_e4m3fn.safetensors

を選択します。

STEP

画像生成する

コマンド一覧から「Queue Prompt」をクリックします。

初回はモデルロードするため、画像生成まで時間がかかります。

画像生成のパラメータが設定済みなので同じ画像が生成されます。

設定変更する場合は以下手順で可能です。

画像生成パラメータの変更方法を確認する

seed値

ワークフローの左下にある「Seed」ノードで変更可能です。

解像度、バッチサイズの変更

ワークフローの左下にある「EmptySD3LatentImage」ノードで変更可能です。

解像度は約 1 メガピクセル、幅/高さは 64 の倍数で設定します。

プロンプトの設定

ワークフローの左下にある「CLIP TextEncode(Prompt)」ノードで変更可能です。

ネガティブプロンプトの設定

ワークフローの左下にある「CLIP TextEncode(Negative Prompt)」ノードで変更可能です。

ステップ数、サンプラーなどの設定

ワークフローの中央右にある「KSampler」ノードで変更可能です。

Stable Diffusion 3 Mediumで生成した画像を紹介

Stable Diffusion 3 Mediumで生成したサンプル画像を紹介します。
プロンプトも掲載しているのでご参考ください。

プロンプトで画像内にテキストを配置することが可能ですが、SD3では精度がかなり向上しています。
その他、手の生成については従来通り苦手なようで・・・克服できていません。

ワークフロー「sd3_medium_example_workflow_basic.json」で生成

使用したプロンプトを確認する

a female character with long, flowing hair that appears to be made of ethereal, swirling patterns resembling the Northern Lights or Aurora Borealis. The background is dominated by deep blues and purples, creating a mysterious and dramatic atmosphere. The character's face is serene, with pale skin and striking features. She wears a dark-colored outfit with subtle patterns. The overall style of the artwork is reminiscent of fantasy or supernatural genres

bad quality, poor quality, doll, disfigured, jpg, toy, bad anatomy, missing limbs, missing fingers, 3d, cgi

使用したプロンプトを確認する

1girl, HDR, 4k, 8k resolution, 10bit, candid RAW portrait photo of a woman on the train station at night, blonde hair, upper body,
RAW photo, masterpiece, photorealistic, best quality, ultra high res, extreme detailed illustration, looking towards the camera lens,
office suit,

無し

使用したプロンプトを確認する

1girl, HDR, 4k, 8k resolution, 10bit, candid RAW portrait photo of a woman holding a piece of note on the park at night, black hair, upper body,
handwritten text ("SD3 Test") on this note,
RAW photo, masterpiece, photorealistic, best quality, ultra high res, extreme detailed illustration, looking towards the camera lens,
white one-piece dress,

3d, render, cgi, unreal engine

使用したプロンプトを確認する

1girl, HDR, 4k, 8k resolution, 10bit, anime style of a woman on city at night,multiple hair, upper body,illustration,
anime, masterpiece, photorealistic, best quality, ultra high res, extreme detailed illustration, looking towards the camera lens,
jacket, head set, visor,
cyberpunk,neon,side shot,

無し

ワークフロー「sd3_medium_example_workflow_multi_prompt.json」で生成

使用したプロンプトを確認する

the background is dominated by deep red and purples, creating a mysterious and dramatic atmosphere similar to a volcanic explosion

the background is dominated by deep red and purples, creating a mysterious and dramatic atmosphere similar to a volcanic explosion

portrait of a female character with long, flowing hair that appears to be made of ethereal, swirling patterns resembling the Northern Lights or Aurora Borealis. Her face is serene, with pale skin and striking features. She wears a dark-colored outfit with subtle patterns. The overall style of the artwork is reminiscent of fantasy or supernatural genres

bad quality, poor quality, doll, disfigured, jpg, toy, bad anatomy, missing limbs, missing fingers, 3d, cgi

まとめ

今回はローカルPCのComfyUIでStable Diffusion 3 Mediumを実行する方法を紹介しました。

SDXLで既に画質は十分でしたが、SD3ではプロンプトの再現性がさらに向上した印象ですね。

この記事ではComfyUIでSD3を使う方法を紹介しましたが、Automatic1111ではブランチ版が公開されているので、後ほど記事を公開する予定です。

よかったらシェアしてね！

URLをコピーしました！

この記事を書いた人

NOV

IT技術者でありDTMer
EDMの作曲を始めたところ楽しさに気づき、ロック以上にハマっています。
楽器はギターを弾いており、バンドではギタリストとしても活動しています。

Stable Diffusion 3 MediumをComfyUIでローカル環境に導入する方法

Stable Diffusion 3とは？

準備するもの

ComfyUIのインストール

ComfyUIのアップデート

Stable Diffusion 3 Mediumモデルの導入

Stable Diffusion 3 Mediumモデルで画像生成する方法

チェックポイントモデルの選択

テキストエンコーダーの選択

Stable Diffusion 3 Mediumで生成した画像を紹介

ワークフロー「sd3_medium_example_workflow_basic.json」で生成

ワークフロー「sd3_medium_example_workflow_multi_prompt.json」で生成

まとめ

この記事を書いた人

popular

コメント

コメントするコメントをキャンセル

Stable Diffusion 3 MediumをComfyUIでローカル環境に導入する方法

Stable Diffusion 3とは？

準備するもの

ComfyUIのインストール

ComfyUIのアップデート

Stable Diffusion 3 Mediumモデルの導入

Stable Diffusion 3 Mediumモデルで画像生成する方法

チェックポイントモデルの選択

テキストエンコーダーの選択

Stable Diffusion 3 Mediumで生成した画像を紹介

ワークフロー「sd3_medium_example_workflow_basic.json」で生成

ワークフロー「sd3_medium_example_workflow_multi_prompt.json」で生成

まとめ

この記事を書いた人

関連記事

popular

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル