ComfyUIでSVD(Stable Video Diffusion)を使って動画生成する方法【VRAM8GB未満でもOK!】

空港に立つ日本人女性のAI写真

はじめに

Stable Video DiffusionをComfyUIで使用する方法を紹介します。

ComfyUIでStable Video Diffusionを使用すればVRAM8GB未満でも動画生成が可能になります!

この記事で理解できること
  • Stable Video Diffusionのインストール方法
  • Stable Video DiffusionをComfyUIで使用する方法
  • Stable Video DiffusionのVRAM使用量について
目次

Stable Video Diffusionとは?

Stable Video Diffusion(SVD)は、Stability AIによって開発された画像から動画を生成するAIモデルです。
2023年11月22日にプレビュー版として公開されています。

SVDは、画像生成モデルであるStable Diffusionをベースに開発されています。

Stable Diffusionは、テキストから画像を生成するモデルとして知られていますが、SVDでは入力を画像にすることで、画像の内容に即した動画を生成できます。

ComfyUIとは?

ComfyUIは、Stable Diffusionの画像生成を簡単に行うためのノードベースのクライアントツールです。

ComfyUIの特徴は、以下の通りです。

  • 誰でも無料で使用できる
  • ノードベースのインターフェースで、複雑なワークフローを簡単に作成できる
  • コードを書く必要がなく、ドラッグ&ドロップで操作できる
  • オフラインで動作するため、インターネットに接続していなくても利用できる

ComfyUIのインターフェースは、ノードベースで構成されています。
ノード同士を繋ぐことで、複雑なワークフローを作成できます。

AUTOMATIC1111は設定項目が固定されているけど、ComfyUIは設定したい項目についてノードを追加するイメージだよ。

ComfyUIでStable Video Diffusionを使うための環境構築

ComfyUIのインストール

ComfyUIをインストールしていない方は、以下の記事を参考にインストールしましょう。

あわせて読みたい
ComfyUIのインストール手順を画像付きで解説【軽量、高速なStable Diffusionクライアント】 はじめに この記事はComfyUIをインストールしたい人向けに、画像付きで手順を解説しています。 また、ComfyUIの特徴や、StableDiffusionクライアントとしての利用方法に...

ComfyUIのアップデート

ComfyUIでStable Video Diffusionを使うには最新のComfyUiが必要になります。

インストール済みで長い間アップデートしていない方は、以下の記事を参考にアップデートしましょう。

あわせて読みたい
ComfyUIのアップデート手順を徹底解説! はじめに この記事では、Stable Diffusionのクライアントアプリ「ComfyUI」のアップデート手順を徹底解説します。 ComfyUIは、Stable Diffusionモデルから画像を生成す...

Stable Video Diffusionのインストール

以下の手順でSVDが使えるようになります。

  • STEP1
    SVDモデルのダウンロード・インストール

    Stable Video Diffusionのモデルは以下の2種類があります。

    動画生成用のモデルは「svd.safetensors」もしくは「svd_xt.safetensors」です。
    これらのモデルをダウンロードしましょう。

    ダウンロード対象モデルsvd_xt.safetensorsのクリックを促している

    モデルをダウンロードしたら、普段チェックポイントモデルを保存しているフォルダに保存します。

    ComfyUIのデフォルトフォルダは「ComfyUI」→「models」→「checkpoints」です。

  • STEP2
    ワークフローをダウンロードする

    Stable Video Diffusionで動画を作成したい場合は、公開されているワークフローの使用がおすすめです。

    出来上がったワークフローを使用すれば、簡単に動画作成できるよ!

    ComfyUI SVDの例が公開されているページから、ワークフローがダウンロードできます。

    「Workflow in Json format」を右クリックし「名前を付けてリンクを保存…」をクリックします。
    (上段のWorkflow in Json formatがi2vで下段がt2v用のワークフローです)

    名前を付けてリンクを保存…のクリックを促している
    CHECK

    保存先はどこでも構いません。
    後ほど、ComfyUiでこのファイルをロードするので、わかりやすい場所に保存しましょう。

Stable Video Diffusionの動画生成手順

i2v(image to video)、t2v(text to video)それぞれのワークフローについて解説していきます。

ダウンロードしたワークフローは、ComfyUIのメニューにあるLoadボタンからロードできます。

ComfyUIのメニューにあるLoadボタンクリックを促している
ワークフローのロード

i2v(image to video)の動画生成手順

i2v(image to video)は参照画像を用意して、画像から動画を作成できます。

以下の手順で動画生成が可能です。

  • STEP1
    動画生成モデルを選択する

    ワークフローの左にあるImage Only Checkpoint Loader(img2vid model)ノードで任意の動画モデルを選択します。

    Image Only Checkpoint Loader(img2vid model)ノードでモデルを選択するよう促している
  • STEP2
    参照画像を設定する

    ワークフローの左にあるLoad Imageノードに参照画像を設定します。

    画像はドラッグ&ドロップするか、「choose file to upload」をクリックして画像を選択してください。

    Load Imageノードで参照画像を選択するよう促している
  • STEP3
    フレーム数を指定する

    ワークフローの中央にあるSVD_img2vid_Conditioningノードの「video_frames」をsvdなら14、svd_xtなら25に設定します。

    video_framesを14もしくは25に設定するよう促している
  • STEP4
    動画生成開始

    最後にComfyUIメニューの「QueuePrompt」をクリックすれば動画が生成されます。

    QueuePromptのクリックを促している

t2v(text to video)の動画生成手順

t2v(text to video)はプロンプト(テキスト)から画像を生成し、その後動画を生成します。

以下の手順で動画生成が可能です。

  • STEP1
    画像生成モデルを選択する

    ワークフローの左にあるLoad Checkpointノードで、任意の画像生成用モデルを選択します。

    Load Checkpointノードでモデルを選択するよう促している
  • STEP2
    プロンプトを入力する

    ワークフローの左側にあるCLIP Text Encode(Prompt)ノードに、プロンプトを入力します。

    CLIP Text Encode(Prompt)ノードのプロンプトを入力する場所をフォーカスしている
    • 上段のCLIP Text Encode(Prompt)ノードがKSamplerノードのpositiveに接続されているので、プロンプトを入力します
    • 下段のCLIP Text Encode(Prompt)ノードがKSamplerノードのnegativeに接続されているので、ネガティブプロンプトを入力します
  • STEP3
    動画生成モデルを選択する

    ワークフロー中央にあるImage Only Checkpoint Loader(img2vid model)ノードで、ダウンロードしたsvdモデルもしくは、svd_xtモデルを選択します。

    Image Only Checkpoint Loader(img2vid model)ノードで動画モデルを選択するよう促している
  • STEP4
    フレーム数を指定する

    ワークフローの右側にあるSVD_img2vid_Conditioningノードの「video_frames」をsvdなら14、svd_xtなら25に設定します。

    video_framesにsvdなら14、svd_xtなら25に設定するよう促している
  • STEP5
    動画生成開始

    最後にComfyUIメニューの「QueuePrompt」をクリックすれば動画が生成されます。

    QueuePromptのクリックを促している
    CHECK

    生成されたwebp形式のファイルは、ブラウザなどで開いて確認が可能です。

その他の設定項目について

使用したワークフローのその他の設定については、ワークフロー例のページで以下の通り解説されています。

  • video_frames: 生成するビデオ フレームの数
  • motion_bucket_id: 数値が大きいほど、ビデオ内の動きが多くなります
  • fps: fps が高くなるほど、ビデオの途切れが少なくなります
  • augmentation level: 初期画像に追加されるノイズの量。値が高いほど、ビデオは初期画像のように見えなくなります。 動きを増やすには値を大きくします
  • VideoLinearCFGGuidance: このノードは、これらのビデオ モデルのサンプリングを少し改善します。このノードは様々なフレームにわたって cfg を線形にスケーリングします。例では、最初のフレームは cfg 1.0 (ノードの min_cfg)、中間フレームは 1.75、そして最終フレームは 2.5 になります。 (サンプラーに設定された cfg)。 このように初期フレームから離れるほど徐々に高い cfg が適用されます。
https://comfyanonymous.github.io/ComfyUI_examples/video/

WEBPではなく、MP4やGIFで保存したい場合

MP4やGIFなどの別の動画形式で保存したい場合は「ComfyUI-VideoHelperSuite」が便利です。

VideoHelperSuiteを実際に使用したワークフロー
VideoHelperSuite設定例

カスタムノードのインストールについてはComfyUI Managerを使うと簡単です。
ComfyUI Managerについては以下の記事で解説しています。

あわせて読みたい
ComfyUI Managerのインストール手順を解説します ComfyUIをより便利に使うためには、カスタムノードを追加するのがおすすめです。 ComfyUIでカスタムノードを追加するには、手動でファイルをダウンロードしてインストー...

滑らかな動画を生成したい場合

フレーム補間処理を実施すると、滑らかな動画が生成可能です。

ComfyUI上でフレーム補間するなら、カスタムノード「ComfyUI-Frame-Interpolation」がおすすめです。

Frame-Interpolationを実際に使用したワークフロー

外部アプリケーションなら「FFmpeg」がおすすめです。
高品質とはいえませんが、簡単な補間程度なら十分です。

VRAM使用量について

標準となる1024×576の解像度で動画生成した場合、MAX9.1GB使用しました。
(グラボは4070tiでテスト)

8GB未満にならなかったので、解像度を512×512でt2v動画生成したところ、MAX5.9GBでした。
(i2vでは解像度を落としてもVRAM使用量はそれほど変わりませんでした)

テストしている方の中では8GB未満でも生成できているようなので、環境次第といったところでしょうか。

僕はQHDモニターを3枚使用しているので、VRAM使用量が高いかも・・・

それでもsvd-webuiを使うよりかはVRAM使用量が少ないので、ComfyUIなら多くの方がSVDで動画生成できますね。

CHECK

SVDが簡単に使用できるsvd-webuiでは、svdモデルはVRAM15GB必要で、svd-xtモデルはVRAM18GB必要です。

まとめ

ComfyUIを使えば、Stable Video Diffusionで簡単に動画を生成できます。

VRAM8GB未満のパソコンでも利用できるので気軽に使えますが、プロンプトで動画の構図を指定することはできないので、今後の発展に期待です。

よかったらシェアしてね!
  • URLをコピーしました!

コメント

コメントする

目次