Stable Diffusion 3 MediumをComfyUIでローカル環境に導入する方法

ComfyUIでStable Diffusion 3 Mediumを使って生成した画像を3枚並べているアイキャッチ画像

Stability AIからStable Diffusion 3が公開開始されました!

この記事ではStable Diffusion 3のモデルの中から、ローカルPCで実行可能なStable Diffusion 3 MediumをComfyUIで動作させる手順を紹介します。

Stable Diffusion 3 Mediumの使用は公式からComfyUIが推奨されています。

目次

Stable Diffusion 3とは?

黒地に赤字のクエスチョンマークの画像

Stable Diffusion 3は、Stability AIが開発した高性能な画像生成AIモデルです。
テキストの指示に基づいて、高品質な画像を生成できます。

モデルは、複数主題のプロンプト、画質、スペリング能力などのパフォーマンスが大幅に向上した、高性能な画像生成モデルです。

Stable Diffusion 3公式サイト

主な特徴は以下の通りです。

  • 膨大なパラメータ数(800Mから8B)
  • 複数主題プロンプトで画像生成可能
  • 豊富なテキストエンコーダー

なんのこっちゃよくわからないと思います。
簡単にまとめると、従来のモデルよりもテキストに忠実な画像が生成可能になりました。

SDXLモデルでは学習画像の解像度が上がり、生成画像が高画質になりましたがプロンプトによる画像の制御が難しい印象でした。
この弱点がStable Diffusion 3では解消されています。

準備するもの

Stable Diffusion 3 MediumをComfyUIで使用するには以下、事前準備が必要です。

ComfyUIのインストール

Stable Diffusion 3 Mediumにネイティブ対応しているComfyUIをインストールする必要があります。

ComfyUIのインストール方法は以下の記事で紹介しています。

あわせて読みたい
ComfyUIのインストール手順を画像付きで解説【軽量、高速なStable Diffusionクライアント】 この記事はComfyUIをインストールしたい人向けに、画像付きで手順を解説しています。 また、ComfyUIの特徴や、StableDiffusionクライアントとしての利用方法についても...

ComfyUIのアップデート

Stable Diffusion 3 Mediumを使用するには最新版のComfyUIが必要です。

ComfyUIをアップデートする場合は、「ComfyUI Manager」が簡単でおすすめです。
ComfyUI Managerを起動して、「Update All」もしくは「Update ComfyUI」をクリックするだけです。

ComfyUI Managerを使ったアップデート方法については、以下の記事で紹介しています。

あわせて読みたい
ComfyUIのアップデート手順を徹底解説! この記事では、Stable Diffusionのクライアントアプリ「ComfyUI」のアップデート手順を徹底解説します。 ComfyUIは、Stable Diffusionモデルから画像を生成するWebブラ...

Stable Diffusion 3 Mediumモデルの導入

事前準備が整ったら、必要なモデルをインストールしましょう。

Stable Diffusion 3 Mediumを利用するには連絡先の登録が必要です。

STEP
チェックポイントモデルのインストール

Huggin Faceのページにジャンプして、「sd3_medium.safetensors」をダウンロードします。

sd3_medium.safetensorsモデルのダウンロードボタンをフォーカスしている

ダウンロードしたファイルは「ComfyUI」→「models」→「checkpoints」フォルダに保存します。

STEP
テキストエンコーダーのインストール

Huggin Faceのページから、「text_encoders」フォルダに移動して以下、テキストエンコーダーをダウンロードします。

  • clip_g.safetensors
  • clip_l.safetensors
  • t5xxl_fp8_e4m3fn.safetensors
テキストエンコーダー3種類のダウンロードボタンをフォーカスしている

t5xxl_fp8_e4m3fn.safetensorsの変わりにsd3_medium_incl_clips_t5xxlfp16.safetensorsを使用しても構いません
 fp8は軽量モデルですが、テストした結果、品質の影響は軽微なのでfp8モデルをおすすめします

ダウンロードしたファイルは「ComfyUI」→「models」→「clip」フォルダに保存します。

※モデルについてはHugging Faceの他、Civitaiでも公開されています

Stable Diffusion 3 Mediumモデルで画像生成する方法

それではStable Diffusion 3 Mediumを使って画像生成してみましょう。

今回は公式のワークフローを使ってみます。

STEP
ワークフローのダウンロード

Hugging Faceで以下のワークフローが公開されています。

  • sd3_medium_example_workflow_basic.json 通常のワークフロー
  • sd3_medium_example_workflow_multi_prompt.json 複数主題プロンプトを体験できるワークフロー
  • sd3_medium_example_workflow_upscaling.json 生成画像をアップスケールするワークフロー

今回は基本となるsd3_medium_example_workflow_basic.jsonを使用します。

ダウンロードしたワークフローファイルは適当なフォルダに保存します。

ワークフローのダウンロードボタンをフォーカスしている

※次項でダウンロードしたワークフローをロードします

STEP
ワークフローをロードする

ワークフローの端に表示されているコマンド一覧から「Load」をクリックします。

ワークフローのLoadボタンをフォーカスしている

先程ダウンロードしたワークフロー「sd3_medium_example_workflow_basic.json」を選択します。

STEP
モデルを選択する

ダウンロードした各種モデルを選択します。

チェックポイントモデルの選択

ワークフローの左上にある「Load Checkpoint」ノードで先程ダウンロードした「sd3_medium.safetensors」を選択します。

ワークフローのLoad Checkpointノードをフォーカスしている

テキストエンコーダーの選択

ワークフローの左上にある「TripleCLIPLoader」ノードで先程ダウンロードしたテキストエンコーダーを選択します。

ワークフローのTripleCLIPLoaderノードをフォーカスしている

上から順番に

  • clip_g.safetensors
  • clip_l.safetensors
  • t5xxl_fp8_e4m3fn.safetensors

を選択します。

STEP
画像生成する

コマンド一覧から「Queue Prompt」をクリックします。

Queue Promptボタンのクリックを促している

初回はモデルロードするため、画像生成まで時間がかかります。

画像生成のパラメータが設定済みなので同じ画像が生成されます。

設定変更する場合は以下手順で可能です。

画像生成パラメータの変更方法を確認する
ワークフローのInputとKSamplerをフォーカスしている
seed値

ワークフローの左下にある「Seed」ノードで変更可能です。

解像度、バッチサイズの変更

ワークフローの左下にある「EmptySD3LatentImage」ノードで変更可能です。

解像度は約 1 メガピクセル、幅/高さは 64 の倍数で設定します。

プロンプトの設定

ワークフローの左下にある「CLIP TextEncode(Prompt)」ノードで変更可能です。

ネガティブプロンプトの設定

ワークフローの左下にある「CLIP TextEncode(Negative Prompt)」ノードで変更可能です。

ステップ数、サンプラーなどの設定

ワークフローの中央右にある「KSampler」ノードで変更可能です。

Stable Diffusion 3 Mediumで生成した画像を紹介

Stable Diffusion 3 Mediumで生成したサンプル画像を紹介します。
プロンプトも掲載しているのでご参考ください。

プロンプトで画像内にテキストを配置することが可能ですが、SD3では精度がかなり向上しています。
その他、手の生成については従来通り苦手なようで・・・克服できていません。

ワークフロー「sd3_medium_example_workflow_basic.json」で生成

女性の青い髪が雷で逆立っているAIイラスト
使用したプロンプトを確認する
a female character with long, flowing hair that appears to be made of ethereal, swirling patterns resembling the Northern Lights or Aurora Borealis. The background is dominated by deep blues and purples, creating a mysterious and dramatic atmosphere. The character's face is serene, with pale skin and striking features. She wears a dark-colored outfit with subtle patterns. The overall style of the artwork is reminiscent of fantasy or supernatural genres
使用したプロンプトを確認する
1girl, HDR, 4k, 8k resolution, 10bit, candid RAW portrait photo of a woman on the train station at night, blonde hair, upper body,
RAW photo, masterpiece, photorealistic, best quality, ultra high res, extreme detailed illustration, looking towards the camera lens,
office suit,
SD3 Testという紙を持った黒髪女性のAI写真
使用したプロンプトを確認する
1girl, HDR, 4k, 8k resolution, 10bit, candid RAW portrait photo of a woman holding a piece of note on the park at night, black hair, upper body,
handwritten text ("SD3 Test") on this note,
RAW photo, masterpiece, photorealistic, best quality, ultra high res, extreme detailed illustration, looking towards the camera lens,
white one-piece dress,
ヘッドセットを装着したサイバーパンク風女性のAIイラスト
使用したプロンプトを確認する
1girl, HDR, 4k, 8k resolution, 10bit, anime style of a woman on city at night,multiple hair, upper body,illustration,
anime, masterpiece, photorealistic, best quality, ultra high res, extreme detailed illustration, looking towards the camera lens,
jacket, head set, visor,
cyberpunk,neon,side shot,

ワークフロー「sd3_medium_example_workflow_multi_prompt.json」で生成

女性の髪が炎で逆立っているAIイラスト
使用したプロンプトを確認する
the background is dominated by deep red and purples, creating a mysterious and dramatic atmosphere similar to a volcanic explosion

まとめ

今回はローカルPCのComfyUIでStable Diffusion 3 Mediumを実行する方法を紹介しました。

SDXLで既に画質は十分でしたが、SD3ではプロンプトの再現性がさらに向上した印象ですね。

この記事ではComfyUIでSD3を使う方法を紹介しましたが、Automatic1111ではブランチ版が公開されているので、後ほど記事を公開する予定です。

よかったらシェアしてね!
  • URLをコピーしました!

この記事を書いた人

IT技術者でありDTMer
EDMの作曲を始めたところ楽しさに気づき、ロック以上にハマっています。
楽器はギターを弾いており、バンドではギタリストとしても活動しています。

コメント

コメントする

目次