この記事では、ComfyUIでStable Cascadeを使って画像生成する方法を紹介します。
インストール方法から、基本的な設定方法、サンプル画像でStable Cascadeの効果を確認していきます。
- ComfyUIにStable Cascadeをインストールする方法
- ComfyUIでStable Cascadeを使って画像生成する方法
Stable Cascadeとは
Stable Cascadeは、Stability AIによって開発された、最先端の画像生成AIモデルです。
Stability AI Japan
- Stable Cascadeは、Würstchen アーキテクチャをベースにした新しいテキスト画像変換モデルです。このモデルは、非商用利用のみを許可する非商用ライセンスの下でリリースされます。
- Stable Cascadeは、3段階のアプローチにより、一般消費者向けハードウェアでのトレーニングと微調整が簡単にできます。
- チェックポイントと推論スクリプトを提供するだけでなく、皆さんがこの新しいアーキテクチャをさらに試せるように、微調整、ControlNet、LoRAトレーニング用のスクリプトを Stability AI の GitHub で公開しています。
Stable Cascadeの特徴
Stable Cascadeは以下の特徴があります。
- 画像生成構成がStage A,B,Cの3段階に分離された
- 品質の向上とプロンプトの合致性の向上
- 生成速度の向上
- 学習コストの低減
テストしてみたところ、確かにSDXL系よりもプロンプトに従ってくれる感じがします。
(お利口になった感じ)
学習についてですが、画像生成のアプローチが分離され3段階になっており、ユーザーが行う追加学習部分はStage CのみでOKです。
ただ、デメリットとして要求されるPCスペックが上がっています。
Stage A,B,Cで別々のモデルを扱うため、ストレージ容量も従来と比較すると倍以上必要になります。
VRAM容量はフルモデルで20GBも必要になります。
今回はVRAM容量が少なくても実行可能なモデルを使っていくよ
ComfyUIにStable Cascadeを導入する方法
今回はComfyUIでStable Cascadeを導入していきます。
まだComfyUIをインストールしていない方は、以下の記事を参照ください。
また最新版のComfyUIが必要になるので、再インストールするか(あまりに古い場合)、以下の記事を参考にアップデートしましょう。
モデルのインストール
Stable Cascadeでは複数のモデルが必要になります。
モデルについてはHugging Faceで公開されているので、以下必要なモデルをダウンロード・インストールしましょう。
モデルは手動インストールする他、「ComfyUI Manager」であれば、installボタンをクリックするだけで指定フォルダにインストールできます。
ComfyUI Managerでインストールする方法
ComfyUI Managerをインストールしていない方は以下記事を参考にインストールしましょう。
ComfyUI Managerを起動したら、「Install Model」をクリックして、Searchウィンドウに「cascade」と入力します。
すると、Stable Cascadeに必要なモデルが一覧されます。
後は各モデルの右側に表示されるインストールボタンをクリックするだけです。
Stage Aモデル、Stage Bモデル、Stage Cモデル、text encoderの4種類をインストールします。
モデルを手動インストールする方法
「stage_a.safetensors」を「ComfyUIフォルダ」→「models」→「vae」に保存します。
以下の何れかのモデルを「ComfyUIフォルダ」→「models」→「unet」に保存します。
- stage_b.safetensors
-
標準モデル
- stage_b_bf16.safetensors
-
BF16モデルでVRAM使用量が少ない、おすすめ
- stage_b_lite.safetensors
-
品質が少し劣るがVRAM使用量がさらに少ない
- stage_b_lite_bf16.safetensors
-
一番VRAM使用量が少ない
以下の何れかのモデルを「ComfyUIフォルダ」→「models」→「unet」に保存します。
- stage_c.safetensors
-
標準モデル
- stage_c_bf16.safetensors
-
BF16モデルでVRAM使用量が少ない、おすすめ
- stage_c_lite.safetensors
-
品質が少し劣るがVRAM使用量がさらに少ない
- stage_c_lite_bf16.safetensors
-
一番VRAM使用量が少ない
ComfyUIでStable Cascadeを使用する方法
ComfyUIでStable Cascadeを使用する方法を解説していきます。
ベーシックなワークフローが公開されているので、ダウンロードして使用しましょう。
ワークフロー公開先に飛んで、右クリックから「名前を付けて保存・・・」をクリックして適当なフォルダにダウンロードしましょう。
ComfyUIを起動したら、右に表示されているコントロールパネルからLoadボタンをクリックして、先程ダウンロードしたワークフローを開きます。
左上のUNETLoaderノードにStage Bモデル、その下のUNETLoaderにStage Cモデルを設定します。
左下のLoad CLIPノードにtext encoderを設定します。
中央から右に表示されているLoad VAEノードにStage Aモデルを設定します。
左に表示されているCLIP TextEncodeノードにプロンプト、その下のCLIP TextEncodeノードにネガティブプロンプトを設定します。
これで設定完了です。
あとは「Queue Prompt」をクリックして画像生成するだけです。
Stable Cascadeで画像生成した結果
いくつかテストで生成した画像を紹介します。
コーヒーを飲む女性
使用したプロンプトを確認する
woman drinking coffee at a cafe, blonde hair, cute, 23yo, shy smile,realistic, photo, film grain, detail skin textures, sharp focus,
手、指の精度が上がったようですが少し違和感が残る結果に・・・
その他は写真のような品質で素晴らしいです。
フォトリアルな風景
使用したプロンプトを確認する
beautiful grassland,sky, tree,log house, winter, snow, realistic, photo, sharp focus,
リアルな風景画像は得意ですね。
道路を走るスーパーカー
使用したプロンプトを確認する
super car running on the road, Mountain, valley, sky, realistic, photo, sharp focus,
車のディテールについてはいまひとつですが、全体的に破綻も無く綺麗です。
イラスト、アニメ調画像
使用したプロンプトを確認する
best quality, 1girl, anime, illustration,cartoons,
cyborg beauty, upper body, in the city,cyberpunk, neon
アニメ寄りのイラストを狙ったのですが、少しイマイチな印象です。
Stable Cascadeモデルの影響を確認
各unetモデルを変更して、生成画像と、VRAM使用量を調べてみました。
- 標準モデル:約9.5GB
- f16モデル:約8GB
- liteモデル:約6GB
- lite f16モデル約5.5GB
やはりおすすめはf16モデルです。
画質とVRAM使用量のバランスが良く、標準モデルと比較しても画質は十分です。
12GB程度のVRAMなら、多くの方が対応できるかと!
VRAMの他、RAMにも注意です。
標準モデルではメインメモリが最低32GB無いと、モデルのロードに失敗する可能性があります。
また、画像生成時間は気になりませんが、モデルのロードにかなり時間がかかります。
まとめ
今回は、ComfyUIでStable Cascadeを使って画像生成する方法を紹介しました。
公開されたStable Cascadeはベースモデルとなるので、今後のファインチューニングモデルが気になりますね。
また、利用者の多いAUTOMATIC1111系での対応が待ち遠しいです!
Stable Cascadeの使い方についてYouTube動画を投稿しています。合わせてご参考ください。
コメント