コンテンツにスキップ
Diffusion Mechanism

Diffusion Mechanism

Updated: 2026-05

1. このページで学ぶこと

ComfyUI のノードを操作するときに「内部で何が起きているか」がうっすら見えるようになることが目的。数式は出さない。比喩と図でいく。

理解できると下記が腑に落ちる:

  • なぜ生成中に画像が「ノイズから少しずつ浮かび上がってくる」のか
  • ステップ数を増やすと何が変わるのか
  • CFG という謎のパラメータが何を制御しているのか
  • なぜテキストと画像の整合が取れるのか

2. 拡散モデルのコアアイデア

拡散(diffusion) という名前は、もともと「インクが水に広がる」とか「香りが部屋に拡散する」という物理現象を指す。

拡散モデルがやっているのは、その逆再生だ。

  • 学習時(順方向): きれいな画像にノイズを少しずつ足していき、最後は完全なノイズにする。各段階での「ノイズ追加量」を AI に覚えさせる
  • 生成時(逆方向): ランダムなノイズから出発して、AI に「どのノイズを引けばよいか」を予測させ、少しずつノイズを引いていく。最終的に意味のある画像が浮かび上がる

ポイント: 生成は「一気に画像を作る」のではなく、ノイズを段階的に削る作業。

3. 「潜在空間」で作業する理由

ピクセル空間(人間が見る通常の画像)で拡散プロセスを動かすと計算量が爆発する。512×512 の画像なら26万個の数値、1024×1024 なら100万個以上。

Stable Diffusion は、潜在空間(latent space)と呼ばれる圧縮された空間でほぼ全工程を行う。

  • 画像 → VAE で潜在空間に圧縮(情報量を1/8〜1/16 に縮める)
  • 拡散プロセスを潜在空間で実行
  • 最後に VAE で潜在空間 → 画像に戻す

潜在空間は「人間には意味の見えない数値の塊」だが、AI にとっては画像の特徴が効率よくまとまっている空間。Comfy Cloud のワークフローでもピンクの線で流れる「潜在画像」がこれ。

4. テキストとの整合: CLIP の役割

「purple galaxy bottle」というテキストを書くと、その通りの画像が出てくる。これがどう成り立っているか。

CLIP(Contrastive Language-Image Pretraining) が橋渡し役。

  • 大量の「画像とその説明文」のペアで学習している
  • どんなテキストも、対応する画像の特徴ベクトルに変換できる
  • このベクトルが、拡散プロセスに「どっちの方向にノイズを削るか」を教える

ワークフロー上では「CLIP テキストエンコード」ノードがこれ。プロンプトを書いた瞬間に CLIP がそれをベクトルに変え、K-Sampler に届ける。

5. ステップと CFG

5.1 ステップ数(steps)

ノイズを何回に分けて削るか。

  • ステップ少(5〜10): 粗いがざらついた絵。Turbo 系モデルは少ステップ前提で設計されている
  • ステップ中(20〜30): 一般的な使用域
  • ステップ多(40〜50): より精細だが、時間(とクレジット)も比例して増える

5.2 CFG(Classifier-Free Guidance)

プロンプトへの忠実度を制御する。

  • CFG 低(1〜3): AI が自由に解釈、創造的だがプロンプト無視気味
  • CFG 中(5〜8): バランスがよい一般使用域
  • CFG 高(10以上): プロンプトに過度に忠実、過彩度や破綻が出やすい

CFG はプロンプトと「無条件」の生成を比べて、プロンプト方向に強引に引っ張る量。強くしすぎるとアーティファクトが出る。

6. サンプラーとスケジューラ

ノイズを削るアルゴリズム(サンプラー)と、各ステップでどれくらい削るかの戦略(スケジューラ)がペアで動く。

  • euler / euler_a: 古典的、SD 1.5 で安定
  • dpmpp_2m / dpmpp_2m_sde: 後発で広く使われる、品質高い
  • lcm: 少ステップで動く、Turbo 系モデルと相性◎

スケジューラ:

  • normal: 標準的な減らし方
  • karras: 後半をきめ細かく、品質寄り
  • simple: シンプル、軽量

サンプラーとモデルの相性は、モデルカード(モデルの説明書)に書かれていることが多い。判らなければ euler / normal で OK。

7. 動画生成AIへの繋がり

動画生成AI(Wan、Sora、Kling)も、内部はほぼ「拡散モデルの3次元版」。

  • 画像版: 潜在空間で2次元のノイズを削る
  • 動画版: 潜在空間で 時間軸も含めた3次元 のノイズを削る

CLIP に相当する「テキスト→ベクトル」変換器、サンプラー、CFG といった仕組みは動画でも基本同じ。画像で身につけた感覚は動画にもそのまま使える

これが本授業で「Comfy Cloud で画像生成を体験してから Runway で動画」と進める理由。

8. 練習問題(座学レベル)

授業では時間を取って下記を口頭で確認する。すぐに答えられない場合はもう一度読む。

  1. 拡散プロセスの「順方向」と「逆方向」はそれぞれ何をするか
  2. 潜在空間で作業する理由を一文で
  3. CLIP は何を入力に取って何を出力するか
  4. ステップ数を増やすメリットとデメリット
  5. 動画生成AIと画像生成AIの関係を一文で

9. このあと

  • Node Philosophy — なぜ ComfyUI はノードベースなのか
  • Getting Started — Comfy Cloud のはじめかた
  • Minimum Workflow — 最小ワークフローを実際に動かす