Stable CascadeをComfyUIで使用する方法を紹介します!

ショートヘアーの赤髪女性が微笑んでいるAI写真

この記事では、ComfyUIでStable Cascadeを使って画像生成する方法を紹介します。

インストール方法から、基本的な設定方法、サンプル画像でStable Cascadeの効果を確認していきます。

この記事で理解できること
  • ComfyUIにStable Cascadeをインストールする方法
  • ComfyUIでStable Cascadeを使って画像生成する方法
目次

Stable Cascadeとは

Stable Cascadeは、Stability AIによって開発された、最先端の画像生成AIモデルです。

  • Stable Cascadeは、Würstchen アーキテクチャをベースにした新しいテキスト画像変換モデルです。このモデルは、非商用利用のみを許可する非商用ライセンスの下でリリースされます。
  • Stable Cascadeは、3段階のアプローチにより、一般消費者向けハードウェアでのトレーニングと微調整が簡単にできます。
  • チェックポイントと推論スクリプトを提供するだけでなく、皆さんがこの新しいアーキテクチャをさらに試せるように、微調整、ControlNet、LoRAトレーニング用のスクリプトを Stability AI の GitHub で公開しています。
Stability AI Japan

Stable Cascadeの特徴

Stable Cascadeは以下の特徴があります。

  • 画像生成構成がStage A,B,Cの3段階に分離された
  • 品質の向上とプロンプトの合致性の向上
  • 生成速度の向上
  • 学習コストの低減

テストしてみたところ、確かにSDXL系よりもプロンプトに従ってくれる感じがします。
(お利口になった感じ)

学習についてですが、画像生成のアプローチが分離され3段階になっており、ユーザーが行う追加学習部分はStage CのみでOKです。

ただ、デメリットとして要求されるPCスペックが上がっています。
Stage A,B,Cで別々のモデルを扱うため、ストレージ容量も従来と比較すると倍以上必要になります。
VRAM容量はフルモデルで20GBも必要になります。

今回はVRAM容量が少なくても実行可能なモデルを使っていくよ

ComfyUIにStable Cascadeを導入する方法

今回はComfyUIでStable Cascadeを導入していきます。

まだComfyUIをインストールしていない方は、以下の記事を参照ください。

あわせて読みたい
ComfyUIのインストール手順を画像付きで解説【軽量、高速なStable Diffusionクライアント】 この記事はComfyUIをインストールしたい人向けに、画像付きで手順を解説しています。 また、ComfyUIの特徴や、StableDiffusionクライアントとしての利用方法についても...

また最新版のComfyUIが必要になるので、再インストールするか(あまりに古い場合)、以下の記事を参考にアップデートしましょう。

あわせて読みたい
ComfyUIのアップデート手順を徹底解説! この記事では、Stable Diffusionのクライアントアプリ「ComfyUI」のアップデート手順を徹底解説します。 ComfyUIは、Stable Diffusionモデルから画像を生成するWebブラ...

モデルのインストール

Stable Cascadeでは複数のモデルが必要になります。
モデルについてはHugging Faceで公開されているので、以下必要なモデルをダウンロード・インストールしましょう。

モデルは手動インストールする他、「ComfyUI Manager」であれば、installボタンをクリックするだけで指定フォルダにインストールできます。

ComfyUI Managerでインストールする方法

ComfyUI Managerをインストールしていない方は以下記事を参考にインストールしましょう。

あわせて読みたい
ComfyUI Managerのインストール手順を解説します ComfyUIをより便利に使うためには、カスタムノードを追加するのがおすすめです。 ComfyUIでカスタムノードを追加するには、手動でファイルをダウンロードしてインストー...

ComfyUI Managerを起動したら、「Install Model」をクリックして、Searchウィンドウに「cascade」と入力します。

すると、Stable Cascadeに必要なモデルが一覧されます。

ComfyUI Managerでcascadeモデルを検索している
必要なモデルが一覧表示されている
ComfyUI Managerでcascadeモデルを検索

後は各モデルの右側に表示されるインストールボタンをクリックするだけです。

Stage Aモデル、Stage Bモデル、Stage Cモデル、text encoderの4種類をインストールします。

モデルを手動インストールする方法
STEP
Stage Aモデル

「stage_a.safetensors」を「ComfyUIフォルダ」→「models」→「vae」に保存します。

STEP
Stage Bモデル

以下の何れかのモデルを「ComfyUIフォルダ」→「models」→「unet」に保存します。

stage_b.safetensors

標準モデル

stage_b_bf16.safetensors

BF16モデルでVRAM使用量が少ない、おすすめ

stage_b_lite.safetensors

品質が少し劣るがVRAM使用量がさらに少ない

stage_b_lite_bf16.safetensors

一番VRAM使用量が少ない

STEP
Stage Cモデル

以下の何れかのモデルを「ComfyUIフォルダ」→「models」→「unet」に保存します。

stage_c.safetensors

標準モデル

stage_c_bf16.safetensors

BF16モデルでVRAM使用量が少ない、おすすめ

stage_c_lite.safetensors

品質が少し劣るがVRAM使用量がさらに少ない

stage_c_lite_bf16.safetensors

一番VRAM使用量が少ない

STEP
text encoder

model.safetensors」を「ComfyUIフォルダ」→「models」→「clip」に保存します。

ComfyUIでStable Cascadeを使用する方法

ComfyUIでStable Cascadeを使用する方法を解説していきます。

STEP
ワークフローの入手

ベーシックなワークフローが公開されているので、ダウンロードして使用しましょう。

ワークフロー公開先に飛んで、右クリックから「名前を付けて保存・・・」をクリックして適当なフォルダにダウンロードしましょう。

STEP
ワークフローを開く

ComfyUIを起動したら、右に表示されているコントロールパネルからLoadボタンをクリックして、先程ダウンロードしたワークフローを開きます。

STEP
モデルを設定する

左上のUNETLoaderノードにStage Bモデル、その下のUNETLoaderにStage Cモデルを設定します。

左下のLoad CLIPノードにtext encoderを設定します。

UNETLoaderノードにStage Bモデル、Stage Cモデルを設定。
Load CLIPノードにtext encoderを設定している
Stage B,C、text encoderの設定

中央から右に表示されているLoad VAEノードにStage Aモデルを設定します。

Load VAEノードにStage Aモデルを設定している
Stage Aモデルの設定
STEP
プロンプトを設定する

左に表示されているCLIP TextEncodeノードにプロンプト、その下のCLIP TextEncodeノードにネガティブプロンプトを設定します。

上段ノードにプロンプト、下段ノードにネガティブプロンプトを設定している
プロンプトの設定

これで設定完了です。
あとは「Queue Prompt」をクリックして画像生成するだけです。

Stable Cascadeで画像生成した結果

いくつかテストで生成した画像を紹介します。

コーヒーを飲む女性

カフェでコーヒーを飲む女性のAI写真
使用したプロンプトを確認する
woman drinking coffee at a cafe, blonde hair, cute, 23yo, shy smile,realistic, photo, film grain, detail skin textures, sharp focus, 

手、指の精度が上がったようですが少し違和感が残る結果に・・・
その他は写真のような品質で素晴らしいです。

フォトリアルな風景

冬の季節、ログハウスの他、木が立っている風景のAI写真
使用したプロンプトを確認する
beautiful grassland,sky, tree,log house, winter, snow, realistic, photo, sharp focus, 

リアルな風景画像は得意ですね。

道路を走るスーパーカー

山間部の道路を走る赤いスーパーカーのAI写真
使用したプロンプトを確認する
super car running on the road, Mountain, valley, sky, realistic, photo, sharp focus, 

車のディテールについてはいまひとつですが、全体的に破綻も無く綺麗です。

イラスト、アニメ調画像

ネオン街でパーカーを着た女性のAIイラスト
使用したプロンプトを確認する
best quality, 1girl, anime, illustration,cartoons,
cyborg beauty, upper body, in the city,cyberpunk, neon

アニメ寄りのイラストを狙ったのですが、少しイマイチな印象です。

Stable Cascadeモデルの影響を確認

各unetモデルを変更して、生成画像と、VRAM使用量を調べてみました。

  • 標準モデル:約9.5GB
  • f16モデル:約8GB
  • liteモデル:約6GB
  • lite f16モデル約5.5GB
花畑でほほ笑む女性のAI写真
標準モデル
花畑でほほ笑む女性のAI写真
標準モデルと差は無い
f16モデル
花畑でほほ笑む女性のAI写真
ディテールがかなり落ちている
liteモデル
花畑でほほ笑む女性のAI写真
ディテールがかなり落ちている
lite f16モデル

やはりおすすめはf16モデルです。
画質とVRAM使用量のバランスが良く、標準モデルと比較しても画質は十分です。

12GB程度のVRAMなら、多くの方が対応できるかと!

VRAMの他、RAMにも注意です。
標準モデルではメインメモリが最低32GB無いと、モデルのロードに失敗する可能性があります。

また、画像生成時間は気になりませんが、モデルのロードにかなり時間がかかります。

まとめ

今回は、ComfyUIでStable Cascadeを使って画像生成する方法を紹介しました。

公開されたStable Cascadeはベースモデルとなるので、今後のファインチューニングモデルが気になりますね。

また、利用者の多いAUTOMATIC1111系での対応が待ち遠しいです!

Stable Cascadeの使い方についてYouTube動画を投稿しています。合わせてご参考ください。

よかったらシェアしてね!
  • URLをコピーしました!

この記事を書いた人

IT技術者でありDTMer
EDMの作曲を始めたところ楽しさに気づき、ロック以上にハマっています。
楽器はギターを弾いており、バンドではギタリストとしても活動しています。

コメント

コメントする

目次