先日公開されたStable Diffusion 3.5ですが、mediumだけ後日公開だったんです。
この記事では、やっと公開されたStable Diffusion 3.5 mediumをローカルPCで実行する手順を紹介します。
Stable Diffusion 3.5 mediumとは?
Stable Diffusion 3.5シリーズの中でも、個人利用が想定された軽量なモデルです。
25 億のパラメータを持ち、MMDiT-X アーキテクチャとトレーニング方法が改善されたこのモデルは、消費者向けハードウェアで「すぐに」実行できるように設計されており、品質とカスタマイズの容易さのバランスが取れています。
0.25 メガピクセルから 2 メガピクセルの解像度の画像を生成できます。
Stability ai公式サイト
Stable Diffusion 3.5のその他のモデルについては以下の記事で紹介しています。
Stable Diffusion 3.5 mediumの特徴
mediumは他モデルと比較すると、RAM使用量も少なく要求されるPCスペックがそれほど高くありません。
実際にテストした結果は以下の通りです。
画像生成中のRAM,VRAM使用量
- RAM 12.1GB → 22GB
- VRAM 1.2GB → 8.2GB
テストしたGPUは4070tiです。
環境も影響しますが、VRAM8GBのグラボでも生成可能と思われます。
かなり軽くなってるね!
商用利用について
Stable Diffusion 3.5 mediumは商用利用可能なモデルとなっています。
詳細は以下の通りです。
非営利目的の場合は無料:個人および組織は、科学研究を含む非営利目的であれば、モデルを無料で使用できます。
商用利用は無料(年間収益が 100 万ドルまで):スタートアップ企業、中小企業、クリエイターは、年間総収益が 100 万ドル未満であれば、無料でこのモデルを商用目的で使用できます。
stability ai
ComfyUIでのインストール手順
ここからは、Stable Diffusion 3.5で使用するモデル等のインストール方法を紹介します。
記事執筆時点ではComfyUIがStable Diffusion 3.5にネイティブ対応しています
ComfyUIのインストールとアップデート
ComfyUIのインストールが済んでいない方は、下記の記事を参考にインストールしましょう。
インストール済みの方は、ComfyUIを最新バージョンにアップデートしましょう。
アップデート手順については以下の記事で紹介しています。
Stable Diffusion 3.5 mediumモデルのインストール方法
Stable Diffusion 3.5 mediumを使う場合には、チェックポイントモデルとテキストエンコーダーが必要になります。
チェックポイントモデルとワークフロー
チェックポイントモデルとワークフローはHugging faceで公開されています。
下記サンプル画像も、このワークフローを使用して生成しています。
models\checkpoint フォルダーに保存する
- sd3.5_medium.safetensors
- SD3.5M_example_workflow.json
テキストエンコーダー
テキストエンコーダーはHugging faceで公開されています。
models/clip フォルダーに保存する
- clip_g.safetensors
- clip_l.safetensors
- t5xxl_fp16.safetensors or t5xxl_fp8_e4m3fn.safetensors
t5xxlのみfp8モデルが用意されています。PCスペックに応じて選択しましょう。
(RAM32GB以上の場合はfp16モデルをおすすめします)
既にインストールしている場合は、追加でインストールする必要はありません。
ComfyUIでの画像生成手順
ComfyUIを起動したらコントロールパネル内の「Load」をクリックしてワークフローを開きます。
- モデルの選択
-
上記インストールフォルダにモデルを保存した場合は、各モデルのパスが通っていないのでモデルをリストから選択し直してください。
ワークフローの左側のノードでモデルを選択します。
- プロンプトの設定
-
ワークフローの真ん中あたりのノードでプロンプトを設定します。
Negative Prompt(ネガティブプロンプト)も設定可能ですが、Stable Diffusion 3.5では特に必要性を感じません。 - 解像度の設定
-
ワークフローの真ん中のノードで画像解像度の設定が可能です。
mediumモデルは他のモデルと違って、色々な解像度に対応しています。
- ステップ数、サンプラーの設定
-
ワークフローの右側のノードで設定が可能です。
step数は30~50、cfg4.5~5.5くらいがおすすめです。
設定が完了したらコントロールパネル内の「Queue Prompt」をクリックして画像生成を開始しましょう!
Stable Diffusion 3.5 mediumで生成したサンプル画像
Stable Diffusion 3.5のfp16、fp8、medium、FLUXモデルで各サンプル画像を生成しました。
先にお伝えしておきますが、mediumモデル・・・可能性を感じます!
パネルを持った女性
使用したプロンプトを確認する
A photorealistic 4K image of a japanese girls, A Japanese girls holding a card that says "Test SD3.5"
アニメ調女性
使用したプロンプトを確認する
Illustration,anime,Beautiful woman standing with her arms crossed, cyberpunk, in a city
都市を走るスーパーカー
使用したプロンプトを確認する
Supercar running through the city at night,in a city, tokyo
宇宙服を着てサッカーをする猫
画像のスタイルに関するプロンプトを追加して、再現性、追従性を確認しました。
使用したプロンプトを確認する
A cat in a space suit playing soccer on the moon
いかがでしょうか。全体的にmediumで生成した画像は好印象でしょう!
largeモデルは扱い難いし、生成画像の品質も微妙に感じましたが、mediumモデルはかなり良いです!
mediumは豊富な解像度に対応しているし、色々な画像スタイルもバランスよく生成できるので見違えましたね。
また必要となるPCリソースも少ないので、沢山の方が扱えるモデルでしょう。
トレーニングもやり易いのでこれは流行るかも!
まとめ
今回はComfyUIでStable Diffusion 3.5 mediumをローカルPCで使用する方法を紹介しました。
largeの時点では、また失敗で終わってしまうのかと心配しましたが、mediumモデルは可能性を感じました!
largeモデルと比較して現実的なPCスペックでも使用できるので、みなさん是非お試しください。
コメント