Stable Diffusion 3.5 mediumの使い方を紹介!【個人PCでも扱いやすいSD3.5】

宇宙船の中にいるサイボーグ女性のAI写真

先日公開されたStable Diffusion 3.5ですが、mediumだけ後日公開だったんです。

この記事では、やっと公開されたStable Diffusion 3.5 mediumをローカルPCで実行する手順を紹介します。

目次

Stable Diffusion 3.5 mediumとは?

Stable Diffusion 3.5シリーズの中でも、個人利用が想定された軽量なモデルです。

25 億のパラメータを持ち、MMDiT-X アーキテクチャとトレーニング方法が改善されたこのモデルは、消費者向けハードウェアで「すぐに」実行できるように設計されており、品質とカスタマイズの容易さのバランスが取れています。

0.25 メガピクセルから 2 メガピクセルの解像度の画像を生成できます。

Stability ai公式サイト

Stable Diffusion 3.5のその他のモデルについては以下の記事で紹介しています。

あわせて読みたい
【Stable Diffusion 3.5】ComfyUIでのインストールと画像生成手順を紹介 stability aiの新モデル「Stable Diffusion 3.5」が公開されました! この記事ではローカルPCでStable Diffusion 3.5とComfyUI を使って、画像生成する手順を紹介します...

Stable Diffusion 3.5 mediumの特徴

mediumは他モデルと比較すると、RAM使用量も少なく要求されるPCスペックがそれほど高くありません。

実際にテストした結果は以下の通りです。

画像生成中のRAM,VRAM使用量

  • RAM 12.1GB → 22GB
  • VRAM 1.2GB → 8.2GB

テストしたGPUは4070tiです。
環境も影響しますが、VRAM8GBのグラボでも生成可能と思われます。

かなり軽くなってるね!

商用利用について

Stable Diffusion 3.5 mediumは商用利用可能なモデルとなっています。
詳細は以下の通りです。

非営利目的の場合は無料:個人および組織は、科学研究を含む非営利目的であれば、モデルを無料で使用できます。

商用利用は無料(年間収益が 100 万ドルまで):スタートアップ企業、中小企業、クリエイターは、年間総収益が 100 万ドル未満であれば、無料でこのモデルを商用目的で使用できます。

stability ai

ComfyUIでのインストール手順

ここからは、Stable Diffusion 3.5で使用するモデル等のインストール方法を紹介します。

記事執筆時点ではComfyUIがStable Diffusion 3.5にネイティブ対応しています

ComfyUIのインストールとアップデート

ComfyUIのインストールが済んでいない方は、下記の記事を参考にインストールしましょう。

あわせて読みたい
ComfyUIのインストール手順を画像付きで解説【軽量、高速なStable Diffusionクライアント】 この記事はComfyUIをインストールしたい人向けに、画像付きで手順を解説しています。 また、ComfyUIの特徴や、StableDiffusionクライアントとしての利用方法についても...

インストール済みの方は、ComfyUIを最新バージョンにアップデートしましょう。

アップデート手順については以下の記事で紹介しています。

あわせて読みたい
ComfyUIのアップデート手順を徹底解説! この記事では、Stable Diffusionのクライアントアプリ「ComfyUI」のアップデート手順を徹底解説します。 ComfyUIは、Stable Diffusionモデルから画像を生成するWebブラ...

Stable Diffusion 3.5 mediumモデルのインストール方法

Stable Diffusion 3.5 mediumを使う場合には、チェックポイントモデルとテキストエンコーダーが必要になります。

チェックポイントモデルとワークフロー

チェックポイントモデルとワークフローはHugging faceで公開されています。

下記サンプル画像も、このワークフローを使用して生成しています。

models\checkpoint フォルダーに保存する

  • sd3.5_medium.safetensors
  • SD3.5M_example_workflow.json
stable diffusion 3.5 mediumのワークフローとチェックポイントモデルのダウンロードを促している

テキストエンコーダー

テキストエンコーダーはHugging faceで公開されています。

models/clip フォルダーに保存する

  • clip_g.safetensors
  • clip_l.safetensors
  • t5xxl_fp16.safetensors or t5xxl_fp8_e4m3fn.safetensors

t5xxlのみfp8モデルが用意されています。PCスペックに応じて選択しましょう。
(RAM32GB以上の場合はfp16モデルをおすすめします)
既にインストールしている場合は、追加でインストールする必要はありません。

ComfyUIでの画像生成手順

STEP
ワークフローの読み込み

ComfyUIを起動したらコントロールパネル内の「Load」をクリックしてワークフローを開きます。

comfyuiのlワークフローoadボタンクリックを促している
stable diffusion 3.5 mediumのワークフローを開いた状態
workflowを開いた状態
STEP
パラメータの設定
モデルの選択

上記インストールフォルダにモデルを保存した場合は、各モデルのパスが通っていないのでモデルをリストから選択し直してください。

ワークフローの左側のノードでモデルを選択します。

プロンプトの設定

ワークフローの真ん中あたりのノードでプロンプトを設定します。
Negative Prompt(ネガティブプロンプト)も設定可能ですが、Stable Diffusion 3.5では特に必要性を感じません。

解像度の設定

ワークフローの真ん中のノードで画像解像度の設定が可能です。

mediumモデルは他のモデルと違って、色々な解像度に対応しています。

ステップ数、サンプラーの設定

ワークフローの右側のノードで設定が可能です。

step数は30~50、cfg4.5~5.5くらいがおすすめです。

STEP
画像生成

設定が完了したらコントロールパネル内の「Queue Prompt」をクリックして画像生成を開始しましょう!

comfyuiのlワークフローoadボタンクリックを促している

Stable Diffusion 3.5 mediumで生成したサンプル画像

Stable Diffusion 3.5のfp16、fp8、medium、FLUXモデルで各サンプル画像を生成しました。
先にお伝えしておきますが、mediumモデル・・・可能性を感じます!

パネルを持った女性

test Fluxと書かれたボードを持つ女性のAI写真
FLUX.1
test sd3.5と書かれたカードを持った女性のAI写真 sd3.5 largeモデルで生成
sd 3.5 fp16
test sd3.5と書かれたカードを持った女性のAI写真 sd3.5 large fp8モデルで生成
sd 3.5 fp8
stable diffusion 3.5 mediumで生成した画像 test sd3.5と書かれたプラカードを持ったAI写真
sd 3.5 med
使用したプロンプトを確認する
A photorealistic 4K image of a japanese girls, A Japanese girls holding a card that says "Test SD3.5"

アニメ調女性

サイバーパンクなネオン街に立つ女性のAIイラスト
FLUX.1
サイバーパンクな都市に立つ女性のAIイラスト sd3.5 largeモデルで生成
sd 3.5 fp16
サイバーパンクな都市に立つ女性のAIイラスト sd3.5 large fp8モデルで生成
sd 3.5 fp8
stable diffusion 3.5 mediumで生成した画像 サイバーパンクな街中で腕を組んで立っている女性のAIイラスト
sd 3.5 med
使用したプロンプトを確認する
Illustration,anime,Beautiful woman standing with her arms crossed, cyberpunk, in a city

都市を走るスーパーカー

夜の街を走るスポーツカーのAI写真
FLUX.1
都市を走るスーパーカーのAI写真 sd3.5 largeモデルで生成
sd 3.5 fp16
都市を走るスーパーカーのAI写真 sd3.5 large fp8モデルで生成
sd 3.5 fp8
stable diffusion 3.5 mediumで生成した画像 待ちを走るスーパーカーのAI写真
sd 3.5 med
使用したプロンプトを確認する
Supercar running through the city at night,in a city, tokyo

宇宙服を着てサッカーをする猫

画像のスタイルに関するプロンプトを追加して、再現性、追従性を確認しました。

stable diffusion 3.5 mediumで生成した画像 宇宙服を着た猫が月でサッカーしているAI写真
以下プロンプトのまま
stable diffusion 3.5 mediumで生成した画像 宇宙服を着た猫が月でサッカーしているAIイラスト(アニメ調)
「anime style」を追加
stable diffusion 3.5 mediumで生成した画像 宇宙服を着た猫が月でサッカーしているAIイラスト(肖像画調)
「abstract painting style」を追加
stable diffusion 3.5 mediumで生成した画像 宇宙服を着た猫が月でサッカーしているAIイラスト(漫画調)
「Manga style」を追加
使用したプロンプトを確認する
A cat in a space suit playing soccer on the moon

いかがでしょうか。全体的にmediumで生成した画像は好印象でしょう!

largeモデルは扱い難いし、生成画像の品質も微妙に感じましたが、mediumモデルはかなり良いです!

mediumは豊富な解像度に対応しているし、色々な画像スタイルもバランスよく生成できるので見違えましたね。
また必要となるPCリソースも少ないので、沢山の方が扱えるモデルでしょう。

トレーニングもやり易いのでこれは流行るかも!

まとめ

今回はComfyUIでStable Diffusion 3.5 mediumをローカルPCで使用する方法を紹介しました。

largeの時点では、また失敗で終わってしまうのかと心配しましたが、mediumモデルは可能性を感じました!

largeモデルと比較して現実的なPCスペックでも使用できるので、みなさん是非お試しください。

よかったらシェアしてね!
  • URLをコピーしました!

この記事を書いた人

IT技術者でありDTMer
EDMの作曲を始めたところ楽しさに気づき、ロック以上にハマっています。
楽器はギターを弾いており、バンドではギタリストとしても活動しています。

コメント

コメントする

目次