Stable Diffusion WebUIのtxt2imgの使い方を徹底解説します

2023年6月9日2024年5月5日

ロングヘアー女性のAI写真 how to use txt2imgと記載されている

Stable Diffusion WebUIでメインとなるtxt2imgの使い方を解説します。

この記事で理解できること

txt2img内のパラメーター詳細
画像生成手順について
画像生成例・プロンプト紹介

txt2imgのパラメーターについて

Stable Diffusion WebUIを起動すると「txt2img」が表示されます。
各部を解説していきます。

Stable Diffusion WebUI ver1.9の txt2img設定画面 — txt2img設定画面

メインエリア

この領域では、画像生成の事前設定を行います。

以下エリアの設定を以降で解説します。

メインエリアのパラメータの詳細を確認する

Stable Diffusion checkpoint

チェックポイントモデルの変更が可能です。

この他LoRAタブの左側にあるCheckpointsタブでは、モデルカードで選択が可能です。

モデルの紹介記事も投稿しているので、合わせてご参考ください。

Stable Diffusionのモデルに関する記事

Prompt

生成してほしい画像の特徴を記載する。

Negative prompt

生成してほしくない画像の特徴を記載する

Generate(ボタン)

ボタンをクリックすると画像生成を開始します。

チェックマーク(ボタン)

クリックすると前回画像生成時の設定を呼び出す。

ゴミ箱(ボタン)

クリックするとPromptとNegative promptの内容をクリアします。

バインダー(ボタン)

クリックすると選択しているstylesをPromptとNegative promptに反映します。

Sampling method

画像生成に使用するサンプラー(ノイズ除去アルゴリズム)を指定します。
サンプラー毎に生成される画像の傾向が変化します。

Schedule type

画像生成に使用するスケジューラ(ステップに対するノイズ量)を指定します。
サンプラーと同じく生成される画像の傾向が変化します。

Sampling steps

サンプリングステップ数を指定する。

ステップ数(ノイズ除去回数)が低いと、ノイズを除去しきれないため低画質な画像が生成される。
逆に高いと高画質になる。

ただし、ステップ数が増えるほど画像生成時間が長くなる。

デフォルトの20stepで生成して、微調整する方法がおすすめです。

Hires.fix

構図を維持して高解像度出力する機能です。

使い方については以下記事で解説しています。

Width

生成画像の幅を指定します。

Height

生成画像の高さを指定します。

CFG Scale

プロンプトの規制力を指定します。
値を高くするとプロンプトの影響が高くなるが、出力画像が破綻する可能性も高くなります。

基本的には7で問題ありません。

Batch count

バッチ回数(画像の出力枚数)を指定する。

Batch size

１回のバッチで何枚の画像を生成するか指定する。

Batch countとBatch sizeについては以下記事で詳細を解説しています。

Seed

画像生成時に使用する乱数のシード値を指定します。

-1を入力するとランダム値となり、生成画像が毎回変化します。
固定値を入力すると、同じ画像が出力されます。

右に表示されている「Extra」をチェックするとSeedの詳細設定が可能です。

Upscale

生成画像を高解像度化する機能です。

Script

画像生成スクリプト機能が使用可能です。

バッチ処理中にプロンプトを切り替えたり、設定項目を切り替える、といった機能が使えます。

stylesエリア

stylesはプロンプトのテンプレート機能です。
(プロンプトのパターンを保存可能)

stylesは以下画像エリアを指します。

stylesの使い方については以下記事で解説しています。

生成画像エリア

Stable Diffusion WebUIでは生成した画像に対して後処理を行うことが科可能です。

生成画像エリアには、後処理の機能がボタンで用意されています。

各ボタンの詳細を確認する

画像左側のボタンから順に列挙します。

フォルダ(ボタン)

クリックすると生成画像保存フォルダを開く。

フロッピー(ボタン)

クリックすると生成した画像を保存します。

zip(ボタン)

生成した画像をzipファイルに圧縮します。

send to img2img(ボタン)

選択した画像をimg2imgに送ります。

Send to inpaint(ボタン)

選択した画像をinpaintに送ります。

Send to extras(ボタン)

選択した画像をextrasに送ります。

改善(ボタン)

複数画像を生成した場合に、選択した画像にのみHires. fixを実行する。

ボタン押した時点でのHires. fixの設定が適用されます。

Stable Diffusion WebUIで画像生成する方法

では、実際に画像生成していきましょう！
以下手順に沿って実行するだけで簡単に出来ますよ。

STEP

モデルの選択

使用したいモデルを「Stable Dissusion checkpoint」から選択しましょう。

STEP

プロンプトの入力

出力したい画像の指定をプロンプトエリアに、
出力したくない画像の指定をネガティブプロンプトエリアに入力していきます。

STEP

Sampling method、Schedule typeの選択

モデルで推奨されているサンプラーを選択しましょう。

スケジューラについてはAutomaticのままで問題ありません。

選択に迷った場合のおすすめ設定を確認する

Sampling method: Euler a(ほとんどモデルで高画質な画像が生成可能)
Schedule type: Karras(サンプラーと同じくほとんどのモデルで良い結果が得られる)

STEP

幅と高さの指定

出力したい画像に合わせて設定してみて下さい。
画像の大きさが構図に影響します。

例えば横長で体全体を出力しようとすると、寝そべった状態になり易いです。

SD1.5ベースモデルであれば512 x 512、
SDXLベースモデルであれば1024×1024が基本解像度になります。

推奨解像度を確認する

512 x 512(1:1)
768 x 768(1:1)
768x 576(4:3)
576 x 768(3:4)

STEP

Sampling steps数の指定

とりあえず20で生成してみましょう。
気に入った画像が出力できたらSeed値を固定して、ステップ数を調整することをおすすめします。

ステップ数を高くすると、画像生成時間も長くなります。

STEP

バッチ数の指定

Batch sizeを1、Batch countを一度に生成したい画像の枚数にしましょう。

STEP

画像生成開始

Genarateボタンを押して画像生成スタート！

STEP

保存した画像を確認してみよう

Stable Diffusion WebUIのデフォルト設定では生成した画像が全て保存されています。
生成画像の下にあるフォルダボタンを押して、保存したファイルを確認してみましょう。

画像生成例・プロンプト紹介

プロンプトに慣れていない間は何を記載すればよいのかわかりませんよね。

ここからは作例と実際に使用したプロンプトを紹介します。

ブロンド女性

商用利用が可能な「chilled‗remix」というモデルを使って生成しました。

使用したプロンプトを確認する

masterpiece, best quality, ultra high res, (photorealistic:1.4), ((puffy eyes)), looking at viewer,1girl ,upper body, close up of face shot, blonde hair, outdoor, standing, in the street, cute, seductive smile, lustrous skin, white blouse,

nsfw, paintings, sketches, cleavage , (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, ((monochrome)), ((grayscale)), split view, grid view,

サイバーパンクなスポーツカー

使用したプロンプトを確認する

dark photo of single futuristic Metallic texture cyberpunk sports car with futuristic cyberpunk landscape, cinematic concept art,cyberpunk color, masterpiece, rainy day, ray tracking, RTX, intricate, 3d, highly detailed, trending on artstation, 4k,extremely high details, ultra hd, hdr, 8k, extremely high details

blurry, lowres, text, error, cropped, worst quality, low quality, jpeg artifacts, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, blurry, dehydrated, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck, username, watermark, signature, label, words,over-saturated,multible vehicles,helicopters,bright

SF、サイバーパンク、近未来に走っていそうなスポーツカーを意識しています。
イメージにぴったりな画像でしょ？

実在しそうなスポーツカー

使用したプロンプトを確認する

A realistic illustration of a sports car in Berlin, Germany. Noon time and Rainy weather. Ultra detailed, 8K, HDR, Octane Render, Redshift, Unreal Engine 5. Professionally color graded, atmosphere, amazing depth, rich colors, powerful imagery, psychedelic overtones, 4K, 8K.

3d, cartoon, anime, sketches, (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, ((monochrome)), ((grayscale)), skin spots, acnes, skin blemishes, bad anatomy, girl, loli, young, large breasts, red eyes, muscular

現代で走っていそうなスポーツカーです。
ボディの反射光がリアルで、AIで生成した画像とは思えないでしょ？

その他、プロンプトについては沢山の記事で解説しているので、ご参考下さい。

プロンプトに関する記事を確認する