この記事では、ComfyUIでStable Cascadeを使って画像生成する方法を紹介します。
インストール方法から、基本的な設定方法、サンプル画像でStable Cascadeの効果を確認していきます。
- ComfyUIにStable Cascadeをインストールする方法
- ComfyUIでStable Cascadeを使って画像生成する方法
Stable Cascadeとは
Stable Cascadeは、Stability AIによって開発された、最先端の画像生成AIモデルです。
Stability AI Japan
- Stable Cascadeは、Würstchen アーキテクチャをベースにした新しいテキスト画像変換モデルです。このモデルは、非商用利用のみを許可する非商用ライセンスの下でリリースされます。
- Stable Cascadeは、3段階のアプローチにより、一般消費者向けハードウェアでのトレーニングと微調整が簡単にできます。
- チェックポイントと推論スクリプトを提供するだけでなく、皆さんがこの新しいアーキテクチャをさらに試せるように、微調整、ControlNet、LoRAトレーニング用のスクリプトを Stability AI の GitHub で公開しています。
Stable Cascadeの特徴
Stable Cascadeは以下の特徴があります。
- 画像生成構成がStage A,B,Cの3段階に分離された
- 品質の向上とプロンプトの合致性の向上
- 生成速度の向上
- 学習コストの低減
テストしてみたところ、確かにSDXL系よりもプロンプトに従ってくれる感じがします。
(お利口になった感じ)
学習についてですが、画像生成のアプローチが分離され3段階になっており、ユーザーが行う追加学習部分はStage CのみでOKです。
ただ、デメリットとして要求されるPCスペックが上がっています。
Stage A,B,Cで別々のモデルを扱うため、ストレージ容量も従来と比較すると倍以上必要になります。
VRAM容量はフルモデルで20GBも必要になります。
![](https://itdtm.com/wp-content/uploads/2024/03/fukidashi-150x150.webp)
今回はVRAM容量が少なくても実行可能なモデルを使っていくよ
ComfyUIにStable Cascadeを導入する方法
今回はComfyUIでStable Cascadeを導入していきます。
まだComfyUIをインストールしていない方は、以下の記事を参照ください。
![](https://itdtm.com/wp-content/uploads/2023/12/11_eyecatch_comfyUI-300x169.jpg)
![](https://itdtm.com/wp-content/uploads/2023/12/11_eyecatch_comfyUI-300x169.jpg)
また最新版のComfyUIが必要になるので、再インストールするか(あまりに古い場合)、以下の記事を参考にアップデートしましょう。
![](https://itdtm.com/wp-content/uploads/2023/12/07_eyecatch_comfyUP-300x169.jpg)
![](https://itdtm.com/wp-content/uploads/2023/12/07_eyecatch_comfyUP-300x169.jpg)
モデルのインストール
Stable Cascadeでは複数のモデルが必要になります。
モデルについてはHugging Faceで公開されているので、以下必要なモデルをダウンロード・インストールしましょう。
モデルは手動インストールする他、「ComfyUI Manager」であれば、installボタンをクリックするだけで指定フォルダにインストールできます。
ComfyUI Managerでインストールする方法
ComfyUI Managerをインストールしていない方は以下記事を参考にインストールしましょう。
![](https://itdtm.com/wp-content/uploads/2023/12/08_eyecatch_comfymg-300x169.jpg)
![](https://itdtm.com/wp-content/uploads/2023/12/08_eyecatch_comfymg-300x169.jpg)
ComfyUI Managerを起動したら、「Install Model」をクリックして、Searchウィンドウに「cascade」と入力します。
すると、Stable Cascadeに必要なモデルが一覧されます。
![ComfyUI Managerでcascadeモデルを検索している
必要なモデルが一覧表示されている](https://itdtm.com/wp-content/uploads/2024/02/02_inst2_confycascade.webp)
![ComfyUI Managerでcascadeモデルを検索している
必要なモデルが一覧表示されている](https://itdtm.com/wp-content/uploads/2024/02/02_inst2_confycascade.webp)
後は各モデルの右側に表示されるインストールボタンをクリックするだけです。
Stage Aモデル、Stage Bモデル、Stage Cモデル、text encoderの4種類をインストールします。
モデルを手動インストールする方法
「stage_a.safetensors」を「ComfyUIフォルダ」→「models」→「vae」に保存します。
以下の何れかのモデルを「ComfyUIフォルダ」→「models」→「unet」に保存します。
- stage_b.safetensors
-
標準モデル
- stage_b_bf16.safetensors
-
BF16モデルでVRAM使用量が少ない、おすすめ
- stage_b_lite.safetensors
-
品質が少し劣るがVRAM使用量がさらに少ない
- stage_b_lite_bf16.safetensors
-
一番VRAM使用量が少ない
以下の何れかのモデルを「ComfyUIフォルダ」→「models」→「unet」に保存します。
- stage_c.safetensors
-
標準モデル
- stage_c_bf16.safetensors
-
BF16モデルでVRAM使用量が少ない、おすすめ
- stage_c_lite.safetensors
-
品質が少し劣るがVRAM使用量がさらに少ない
- stage_c_lite_bf16.safetensors
-
一番VRAM使用量が少ない
ComfyUIでStable Cascadeを使用する方法
ComfyUIでStable Cascadeを使用する方法を解説していきます。
ベーシックなワークフローが公開されているので、ダウンロードして使用しましょう。
ワークフロー公開先に飛んで、右クリックから「名前を付けて保存・・・」をクリックして適当なフォルダにダウンロードしましょう。
ComfyUIを起動したら、右に表示されているコントロールパネルからLoadボタンをクリックして、先程ダウンロードしたワークフローを開きます。
左上のUNETLoaderノードにStage Bモデル、その下のUNETLoaderにStage Cモデルを設定します。
左下のLoad CLIPノードにtext encoderを設定します。
![UNETLoaderノードにStage Bモデル、Stage Cモデルを設定。
Load CLIPノードにtext encoderを設定している](https://itdtm.com/wp-content/uploads/2024/02/03_set1_confycascade.webp)
![UNETLoaderノードにStage Bモデル、Stage Cモデルを設定。
Load CLIPノードにtext encoderを設定している](https://itdtm.com/wp-content/uploads/2024/02/03_set1_confycascade.webp)
中央から右に表示されているLoad VAEノードにStage Aモデルを設定します。
![Load VAEノードにStage Aモデルを設定している](https://itdtm.com/wp-content/uploads/2024/02/04_set2_confycascade.webp)
![Load VAEノードにStage Aモデルを設定している](https://itdtm.com/wp-content/uploads/2024/02/04_set2_confycascade.webp)
左に表示されているCLIP TextEncodeノードにプロンプト、その下のCLIP TextEncodeノードにネガティブプロンプトを設定します。
![上段ノードにプロンプト、下段ノードにネガティブプロンプトを設定している](https://itdtm.com/wp-content/uploads/2024/02/05_set3_confycascade.webp)
![上段ノードにプロンプト、下段ノードにネガティブプロンプトを設定している](https://itdtm.com/wp-content/uploads/2024/02/05_set3_confycascade.webp)
これで設定完了です。
あとは「Queue Prompt」をクリックして画像生成するだけです。
Stable Cascadeで画像生成した結果
いくつかテストで生成した画像を紹介します。
コーヒーを飲む女性
![カフェでコーヒーを飲む女性のAI写真](https://itdtm.com/wp-content/uploads/2024/02/06_cafe_confycascade.webp)
![カフェでコーヒーを飲む女性のAI写真](https://itdtm.com/wp-content/uploads/2024/02/06_cafe_confycascade.webp)
使用したプロンプトを確認する
woman drinking coffee at a cafe, blonde hair, cute, 23yo, shy smile,realistic, photo, film grain, detail skin textures, sharp focus,
手、指の精度が上がったようですが少し違和感が残る結果に・・・
その他は写真のような品質で素晴らしいです。
フォトリアルな風景
![冬の季節、ログハウスの他、木が立っている風景のAI写真](https://itdtm.com/wp-content/uploads/2024/02/07_snow_confycascade.webp)
![冬の季節、ログハウスの他、木が立っている風景のAI写真](https://itdtm.com/wp-content/uploads/2024/02/07_snow_confycascade.webp)
使用したプロンプトを確認する
beautiful grassland,sky, tree,log house, winter, snow, realistic, photo, sharp focus,
リアルな風景画像は得意ですね。
道路を走るスーパーカー
![山間部の道路を走る赤いスーパーカーのAI写真](https://itdtm.com/wp-content/uploads/2024/02/08_car_confycascade.webp)
![山間部の道路を走る赤いスーパーカーのAI写真](https://itdtm.com/wp-content/uploads/2024/02/08_car_confycascade.webp)
使用したプロンプトを確認する
super car running on the road, Mountain, valley, sky, realistic, photo, sharp focus,
車のディテールについてはいまひとつですが、全体的に破綻も無く綺麗です。
イラスト、アニメ調画像
![ネオン街でパーカーを着た女性のAIイラスト](https://itdtm.com/wp-content/uploads/2024/02/09_2d_confycascade.webp)
![ネオン街でパーカーを着た女性のAIイラスト](https://itdtm.com/wp-content/uploads/2024/02/09_2d_confycascade.webp)
使用したプロンプトを確認する
best quality, 1girl, anime, illustration,cartoons,
cyborg beauty, upper body, in the city,cyberpunk, neon
アニメ寄りのイラストを狙ったのですが、少しイマイチな印象です。
Stable Cascadeモデルの影響を確認
各unetモデルを変更して、生成画像と、VRAM使用量を調べてみました。
- 標準モデル:約9.5GB
- f16モデル:約8GB
- liteモデル:約6GB
- lite f16モデル約5.5GB
![花畑でほほ笑む女性のAI写真](https://itdtm.com/wp-content/uploads/2024/02/10_nor_confycascade.webp)
![花畑でほほ笑む女性のAI写真](https://itdtm.com/wp-content/uploads/2024/02/10_nor_confycascade.webp)
![花畑でほほ笑む女性のAI写真
標準モデルと差は無い](https://itdtm.com/wp-content/uploads/2024/02/11_f16_confycascade.webp)
![花畑でほほ笑む女性のAI写真
標準モデルと差は無い](https://itdtm.com/wp-content/uploads/2024/02/11_f16_confycascade.webp)
![花畑でほほ笑む女性のAI写真
ディテールがかなり落ちている](https://itdtm.com/wp-content/uploads/2024/02/12_lite_confycascade.webp)
![花畑でほほ笑む女性のAI写真
ディテールがかなり落ちている](https://itdtm.com/wp-content/uploads/2024/02/12_lite_confycascade.webp)
![花畑でほほ笑む女性のAI写真
ディテールがかなり落ちている](https://itdtm.com/wp-content/uploads/2024/02/13_litef16_confycascade.webp)
![花畑でほほ笑む女性のAI写真
ディテールがかなり落ちている](https://itdtm.com/wp-content/uploads/2024/02/13_litef16_confycascade.webp)
やはりおすすめはf16モデルです。
画質とVRAM使用量のバランスが良く、標準モデルと比較しても画質は十分です。
![](https://itdtm.com/wp-content/uploads/2024/03/fukidashi-150x150.webp)
![](https://itdtm.com/wp-content/uploads/2024/03/fukidashi-150x150.webp)
![](https://itdtm.com/wp-content/uploads/2024/03/fukidashi-150x150.webp)
12GB程度のVRAMなら、多くの方が対応できるかと!
VRAMの他、RAMにも注意です。
標準モデルではメインメモリが最低32GB無いと、モデルのロードに失敗する可能性があります。
また、画像生成時間は気になりませんが、モデルのロードにかなり時間がかかります。
まとめ
今回は、ComfyUIでStable Cascadeを使って画像生成する方法を紹介しました。
公開されたStable Cascadeはベースモデルとなるので、今後のファインチューニングモデルが気になりますね。
また、利用者の多いAUTOMATIC1111系での対応が待ち遠しいです!
Stable Cascadeの使い方についてYouTube動画を投稿しています。合わせてご参考ください。
コメント