コンテンツにスキップ
Minimum Workflow

Minimum Workflow

Updated: 2026-05

1. このページで学ぶこと

  • 文章から画像を生成する最小ワークフローの構成
  • 各ノードが何をしているか、一文で説明できる状態
  • 拡散モデルの内部処理が「ノードの繋がり」として見えるようになる

ノード操作そのものに慣れることが目的。生成画像の質を追うのは次回以降。

2. ワークフローの全景

Comfy Cloud を開くと最初に表示される標準ワークフロー。これだけでテキストから1枚の画像を生成できる。

ノードは大きく分けて6種類、左から右にデータを流していく。

  1. チェックポイントを読み込む(Load Checkpoint)
  2. CLIPテキストエンコード × 2(ポジティブ用・ネガティブ用)
  3. 空の潜在画像(Empty Latent Image)
  4. Kサンプラー(KSampler)
  5. VAEデコード(VAE Decode)
  6. 画像を保存(Save Image)

線の色には意味がある。モデル(紫)、CLIP(黄色)、潜在画像(ピンク)、ピクセル画像(青)といった具合に、ノードの間で流れているデータの種類を表す。

3. 各ノードの役割

3.1 チェックポイントを読み込む

モデル本体をディスクから読み込むノード。1つの .safetensors ファイルの中に、実は3つの部品が入っている。

  • モデル: 拡散プロセスの本体(ノイズを削る側)
  • CLIP: テキストを数値ベクトルに変える「テキスト解釈器」
  • VAE: 潜在空間と画像(ピクセル)を行き来する「変換器」

出力ピンが3つあるのはこのため。

デフォルトでは Stable Diffusion 1.5(v1-5-pruned-emaonly-fp16.safetensors)が読み込まれる。Comfy Cloud には900以上のモデルがプリインストール済み。

3.2 CLIPテキストエンコード(プロンプト)

人間が書いた文字列を、AIが内部処理できる特徴ベクトルに変換するノード。同じノードを2回使い、ポジティブ用とネガティブ用に分ける。

ポジティブ側(例)

beautiful scenery nature glass bottle landscape, purple galaxy bottle

ネガティブ側(例)

text, watermark

ネガティブには「画像に出てほしくない要素」を書く。

3.3 空の潜在画像

潜在空間で「ノイズの土台」を準備するノード。幅×高さ×バッチサイズを指定する。

注目すべきは、ここで作業しているのがピクセル空間ではないということ。拡散モデルは生成の大半を、画像をぐっと圧縮した「潜在空間」と呼ばれる数値の配列の中で行う。最後の最後で VAE を通して人間が見られる画像に展開する。

3.4 Kサンプラー

ワークフローの心臓部。拡散プロセス(ノイズを段階的に削って画像を浮かび上がらせる処理)を実行する。

主要パラメータ

  • シード(seed): ランダム性の種。同じシードなら結果は完全に再現される
  • 生成後の制御: 実行のたびにシードをどうするか(randomize / fixed / increment)
  • ステップ(steps): ノイズを何回に分けて削るか。多いほど精細だが時間とクレジットが増える
  • cfg: プロンプトへの忠実度。低いと自由、高いと忠実だが過度に高いと崩れる
  • サンプラー名: ノイズを削るアルゴリズム。euler, dpmpp_2m など、モデルに相性のよいものを選ぶ
  • スケジューラ: ステップごとのノイズ量の減らし方の戦略

これら全てが結果に影響する。次のページ「Parameters」で1つずつ動かして比べる。

3.5 VAEデコード

潜在空間の数値列を、人間が見られる**画像(ピクセル)**に変換するノード。VAE = Variational Auto Encoder(変分オートエンコーダ)。

学習時には「画像 → 潜在空間」に圧縮し、生成時には「潜在空間 → 画像」に展開する。チェックポイントから出てきた vae ピンを入力に繋ぐ。

3.6 画像を保存

ピクセル画像をファイルに書き出すノード。ファイル名_プレフィックス で出力ファイル名の頭が決まる。

Comfy Cloud では、生成された画像を右クリックして「画像を保存」を選ぶとローカルにダウンロードできる。

4. 実行する

  1. 画面右上の 実行する ボタンをクリック
  2. K-Sampler 画面の中にプレビュー画像が現れ、ノイズが少しずつ削られて被写体が浮かび上がってくる
  3. SD 1.5、512×512、20ステップなら約3〜5秒で完成

実行中は画面上部に進捗バーが表示され、現在処理しているノードが緑の枠で示される。

5. クレジット消費の目安

無料プラン(400クレジット/月)での実測値。

モデル 解像度 設定 1枚あたり 400クレジットで何枚
SD 1.5 512×512 20ステップ euler 約 0.3〜0.5 cr 約 1,000〜1,200
Z Image Turbo 1024×1024 テンプレ標準 約 2 cr 約 200

SD 1.5 ベースならシードを変えて何度連打しても予算が尽きない。Z Image Turbo は本番出力寄り。

クレジット残高は画面右上のアバターをクリックして確認できる。

6. 試してみる

ノードに慣れるための小ネタ。1つずつ試して、どこを変えると何が変わるか体感する。

  • シードを変える: K-Sampler のシード欄で別の値を入れる → プロンプトは同じでも別の画像になる
  • プロンプトを書き換える: ポジティブ側を変える(例:purple galaxy bottlered sunset wine glass
  • サイズを変える: 空の潜在画像の幅/高さを 768×768 に → 計算量が増え、クレジット消費も増える
  • ステップ数を変える: K-Sampler のステップを 5 / 20 / 40 で比べる → 5 はざらつき、40 は精細

7. このあと

  • Parameters — ステップ、CFG、サンプラー、シードの効果を並べて比較する
  • Node Philosophy — なぜノードベースなのか、Stable Diffusion Web UI との違い
  • ControlNet — 構図や姿勢を別の画像で指定する