ComfyUIでSVDを使って動画生成する方法を紹介します

2023年12月25日2024年5月7日

この記事ではComfyUIでSVDを使用する方法を紹介します。

ComfyUIでStable Video Diffusionを使用すればVRAM8GB未満でも動画生成が可能になります！

この記事で理解できること

Stable Video Diffusionのインストール方法
Stable Video DiffusionをComfyUIで使用する方法
Stable Video DiffusionのVRAM使用量について

SVDとは？

SVDはStable Video Diffusionの略で、Stability AIによって開発された画像から動画を生成するAIモデルです。
2023年11月22日にプレビュー版として公開されています。

SVDは、画像生成モデルであるStable Diffusionをベースに開発されています。

Stable Diffusionは、テキストから画像を生成するモデルとして知られていますが、SVDでは入力を画像にすることで、画像の内容に即した動画を生成できます。

ComfyUIでStable Video Diffusionを使うための環境構築

ComfyUIのインストール

ComfyUIをインストールしていない方は、以下の記事を参考にインストールしましょう。

ComfyUIのアップデート

ComfyUIでStable Video Diffusionを使うには最新のComfyUiが必要になります。

インストール済みで長い間アップデートしていない方は、以下の記事を参考にアップデートしましょう。

Stable Video Diffusionのインストール

以下の手順でSVDが使えるようになります。

STEP

SVDモデルのダウンロード・インストール

Stable Video Diffusionのモデルは以下の2種類があります。

stable-video-diffusion-img2vid: 14フレームの動画を作成可能(解像度は576×1024で学習されている)
stable-video-diffusion-img2vid-xt: 25フレームの動画を作成可能(解像度は576×1024で学習されている)

動画生成用のモデルは「svd.safetensors」もしくは「svd_xt.safetensors」です。
これらのモデルをダウンロードしましょう。

ダウンロード対象モデルsvd_xt.safetensorsのクリックを促している

モデルをダウンロードしたら、普段チェックポイントモデルを保存しているフォルダに保存します。

ComfyUIのデフォルトフォルダは「ComfyUI」→「models」→「checkpoints」です。

STEP

ワークフローをダウンロードする

Stable Video Diffusionで動画を作成したい場合は、公開されているワークフローの使用がおすすめです。

出来上がったワークフローを使用すれば、簡単に動画作成できるよ！

ComfyUI SVDの例が公開されているページから、ワークフローがダウンロードできます。

「Workflow in Json format」を右クリックし「名前を付けてリンクを保存…」をクリックします。
(上段のWorkflow in Json formatがi2vで下段がt2v用のワークフローです)

保存先はどこでも構いません。
後ほど、ComfyUiでこのファイルをロードするので、わかりやすい場所に保存しましょう。

Stable Video Diffusionの動画生成手順

i2v(image to video)、t2v(text to video)それぞれのワークフローについて解説していきます。

ダウンロードしたワークフローは、ComfyUIのメニューにあるLoadボタンからロードできます。

ComfyUIのメニューにあるLoadボタンクリックを促している — ワークフローのロード

i2v(image to video)の動画生成手順

i2v(image to video)は参照画像を用意して、画像から動画を作成できます。

以下の手順で動画生成が可能です。

STEP

動画生成モデルを選択する

ワークフローの左にあるImage Only Checkpoint Loader(img2vid model)ノードで任意の動画モデルを選択します。

Image Only Checkpoint Loader(img2vid model)ノードでモデルを選択するよう促している

STEP

参照画像を設定する

ワークフローの左にあるLoad Imageノードに参照画像を設定します。

画像はドラッグ&ドロップするか、「choose file to upload」をクリックして画像を選択してください。

STEP

フレーム数を指定する

ワークフローの中央にあるSVD_img2vid_Conditioningノードの「video_frames」をsvdなら14、svd_xtなら25に設定します。

STEP

動画生成開始

最後にComfyUIメニューの「QueuePrompt」をクリックすれば動画が生成されます。

t2v(text to video)の動画生成手順

t2v(text to video)はプロンプト(テキスト)から画像を生成し、その後動画を生成します。

以下の手順で動画生成が可能です。

STEP

画像生成モデルを選択する

ワークフローの左にあるLoad Checkpointノードで、任意の画像生成用モデルを選択します。

STEP

プロンプトを入力する

ワークフローの左側にあるCLIP Text Encode(Prompt)ノードに、プロンプトを入力します。

上段のCLIP Text Encode(Prompt)ノードがKSamplerノードのpositiveに接続されているので、プロンプトを入力します
下段のCLIP Text Encode(Prompt)ノードがKSamplerノードのnegativeに接続されているので、ネガティブプロンプトを入力します

STEP

動画生成モデルを選択する

ワークフロー中央にあるImage Only Checkpoint Loader(img2vid model)ノードで、ダウンロードしたsvdモデルもしくは、svd_xtモデルを選択します。

Image Only Checkpoint Loader(img2vid model)ノードで動画モデルを選択するよう促している

STEP

フレーム数を指定する

ワークフローの右側にあるSVD_img2vid_Conditioningノードの「video_frames」をsvdなら14、svd_xtなら25に設定します。

video_framesにsvdなら14、svd_xtなら25に設定するよう促している

STEP

動画生成開始

最後にComfyUIメニューの「QueuePrompt」をクリックすれば動画が生成されます。

生成されたwebp形式のファイルは、ブラウザなどで開いて確認が可能です。

その他の設定項目について

使用したワークフローのその他の設定については、ワークフロー例のページで以下の通り解説されています。

video_frames: 生成するビデオフレームの数

motion_bucket_id: 数値が大きいほど、ビデオ内の動きが多くなります

fps: fps が高くなるほど、ビデオの途切れが少なくなります

augmentation level: 初期画像に追加されるノイズの量。値が高いほど、ビデオは初期画像のように見えなくなります。動きを増やすには値を大きくします

VideoLinearCFGGuidance: このノードは、これらのビデオモデルのサンプリングを少し改善します。このノードは様々なフレームにわたって cfg を線形にスケーリングします。例では、最初のフレームは cfg 1.0 (ノードの min_cfg)、中間フレームは 1.75、そして最終フレームは 2.5 になります。 (サンプラーに設定された cfg)。このように初期フレームから離れるほど徐々に高い cfg が適用されます。

https://comfyanonymous.github.io/ComfyUI_examples/video/