Stable Diffusion WebUI Forgeは、画像から短い動画が作成できるStable Video Diffusion(SVD)に対応しています。
この記事ではStable Diffusion WebUI ForgeでSVDを使用する方法を紹介します。
SVDとは?
簡単にいうと、Stable Video Diffusion (SVD)は、一枚の画像から短く単純な動画を生成できます。
例えば、以下のような動画が作成できます。
- 人物の画像:髪が揺れたり、カメラが移動したり
- 空の画像:雲が流れる動画
- 川の画像:川の水が流れる動画
設定するのは動画のフレームやFPS程度で、プロンプトで動画の細かい動作を指定することはできません。
SVDの導入方法
今回は「Stable Diffusion WebUI Forge」でSVDを動作させます。
まだStable Diffusion WebUI Forgeをインストールしていない方は、以下の記事を参考にインストールしてみましょう。
Stable Video Diffusionのモデルは以下の3種類があります。
- SVD:14フレーム、576×1024の動画を生成するよう学習されている
- SVD xt:25フレーム、576×1024の動画を生成するよう学習されている
- SVD xt1.1:25フレーム、1024×576の動画を生成するよう学習されている
SVDではSVDモデルとイメージデコーダーの2種類のモデルが公開されています。
SVDの場合は、「svd.safetensors」、
SVD xtの場合は「svd_xt.safetensors」、
SVD xt1.1の場合は「svd_xt_1_1.safetensors」をダウンロードしましょう。
モデルをダウンロードしたら、「forgeフォルダ」→「models」→「svd」フォルダに保存します。
SVDを使って動画生成する方法
それではSVDで動画生成する手順を紹介します。
WebUI Forgeの上段メニューから「SVD」をクリックします。
動画にしたい画像をロード(ドラッグ&ドロップ)します。
SVD Checkpoint FilenameからSVDモデルを選択します。
以下に示すSVDのパラメータを、生成したい動画に合わせて設定しましょう。
初めて使用するときはWidthとHeightだけ設定して、どのような動画が生成されるのかテストすることをおすすめします。
パラメータの詳細を確認する
- Width、Height
-
動画の解像度を設定する。
(画像の解像度に合わせたほうが無難) - Video Frames
-
動画のフレーム数を設定する。
- Motion Bucket Id
-
数値が高いほど、動画の動きが多くなる。
(上げると破綻しやすい) - Fps
-
フレームレート(フレーム/秒)を設定する。
Fpsを14、Video Framesを14に設定すると、1秒の動画が生成されます。
- Augmentation Level
-
初期画像のノイズ量、高くすると動画の動きも増える。
- Sampling Steps
-
サンプリングステップ数。
(画像生成と同じ設定です) - CFG Scale
-
CFGスケールです。
(SVDの場合は低めに設定すると良いです) - Sampling Denoise
-
サンプリングノイズ除去量の調整を行う。
- Guidance Min Cfg
-
Cfgの最小値を設定できます。
- Sampler Name
-
サンプラーの設定が可能です。
- Scheduler
-
スケジューラーの設定が可能です。
- Seed
-
シード値、一貫性を高めるために固定します。
設定が完了したらGenerateをクリックして生成開始します。
設定にもよりますが、SVDモデルはVRAM 約10GB、SVD xtモデルは約12GB使用します。
また、生成時間も使用するGPU、設定によりますが10分程度は見積もっておきましょう。
生成が完了したら、再生ウィンドウ右上のダウンロードボタンをクリックすると動画を保存できます。
以下動画はSVDで生成したサンプルです。
まとめ
今回はStable Diffusion WebUI ForgeでSVDを使用する方法を紹介しました。
シンプルな動画であれば、簡単な設定で動画作成できる時代になりましたね。
ただSVDはVRAM容量が沢山必要になります。
Forgeで使用すると最低12GB程度のVRAM容量が必要なので、
VRAM容量が少ない場合にはComfyUIのSVDがおすすめです。
コメント