Diffusion Mechanism
Updated: 2026-05
1. このページで学ぶこと
ComfyUI のノードを操作するときに「内部で何が起きているか」がうっすら見えるようになることが目的。数式は出さない。比喩と図でいく。
理解できると下記が腑に落ちる:
- なぜ生成中に画像が「ノイズから少しずつ浮かび上がってくる」のか
- ステップ数を増やすと何が変わるのか
- CFG という謎のパラメータが何を制御しているのか
- なぜテキストと画像の整合が取れるのか
2. 拡散モデルのコアアイデア
拡散(diffusion) という名前は、もともと「インクが水に広がる」とか「香りが部屋に拡散する」という物理現象を指す。
拡散モデルがやっているのは、その逆再生だ。
- 学習時(順方向): きれいな画像にノイズを少しずつ足していき、最後は完全なノイズにする。各段階での「ノイズ追加量」を AI に覚えさせる
- 生成時(逆方向): ランダムなノイズから出発して、AI に「どのノイズを引けばよいか」を予測させ、少しずつノイズを引いていく。最終的に意味のある画像が浮かび上がる
ポイント: 生成は「一気に画像を作る」のではなく、ノイズを段階的に削る作業。
3. 「潜在空間」で作業する理由
ピクセル空間(人間が見る通常の画像)で拡散プロセスを動かすと計算量が爆発する。512×512 の画像なら26万個の数値、1024×1024 なら100万個以上。
Stable Diffusion は、潜在空間(latent space)と呼ばれる圧縮された空間でほぼ全工程を行う。
- 画像 → VAE で潜在空間に圧縮(情報量を1/8〜1/16 に縮める)
- 拡散プロセスを潜在空間で実行
- 最後に VAE で潜在空間 → 画像に戻す
潜在空間は「人間には意味の見えない数値の塊」だが、AI にとっては画像の特徴が効率よくまとまっている空間。Comfy Cloud のワークフローでもピンクの線で流れる「潜在画像」がこれ。
4. テキストとの整合: CLIP の役割
「purple galaxy bottle」というテキストを書くと、その通りの画像が出てくる。これがどう成り立っているか。
CLIP(Contrastive Language-Image Pretraining) が橋渡し役。
- 大量の「画像とその説明文」のペアで学習している
- どんなテキストも、対応する画像の特徴ベクトルに変換できる
- このベクトルが、拡散プロセスに「どっちの方向にノイズを削るか」を教える
ワークフロー上では「CLIP テキストエンコード」ノードがこれ。プロンプトを書いた瞬間に CLIP がそれをベクトルに変え、K-Sampler に届ける。
5. ステップと CFG
5.1 ステップ数(steps)
ノイズを何回に分けて削るか。
- ステップ少(5〜10): 粗いがざらついた絵。Turbo 系モデルは少ステップ前提で設計されている
- ステップ中(20〜30): 一般的な使用域
- ステップ多(40〜50): より精細だが、時間(とクレジット)も比例して増える
5.2 CFG(Classifier-Free Guidance)
プロンプトへの忠実度を制御する。
- CFG 低(1〜3): AI が自由に解釈、創造的だがプロンプト無視気味
- CFG 中(5〜8): バランスがよい一般使用域
- CFG 高(10以上): プロンプトに過度に忠実、過彩度や破綻が出やすい
CFG はプロンプトと「無条件」の生成を比べて、プロンプト方向に強引に引っ張る量。強くしすぎるとアーティファクトが出る。
6. サンプラーとスケジューラ
ノイズを削るアルゴリズム(サンプラー)と、各ステップでどれくらい削るかの戦略(スケジューラ)がペアで動く。
- euler / euler_a: 古典的、SD 1.5 で安定
- dpmpp_2m / dpmpp_2m_sde: 後発で広く使われる、品質高い
- lcm: 少ステップで動く、Turbo 系モデルと相性◎
スケジューラ:
- normal: 標準的な減らし方
- karras: 後半をきめ細かく、品質寄り
- simple: シンプル、軽量
サンプラーとモデルの相性は、モデルカード(モデルの説明書)に書かれていることが多い。判らなければ euler / normal で OK。
7. 動画生成AIへの繋がり
動画生成AI(Wan、Sora、Kling)も、内部はほぼ「拡散モデルの3次元版」。
- 画像版: 潜在空間で2次元のノイズを削る
- 動画版: 潜在空間で 時間軸も含めた3次元 のノイズを削る
CLIP に相当する「テキスト→ベクトル」変換器、サンプラー、CFG といった仕組みは動画でも基本同じ。画像で身につけた感覚は動画にもそのまま使える。
これが本授業で「Comfy Cloud で画像生成を体験してから Runway で動画」と進める理由。
8. 練習問題(座学レベル)
授業では時間を取って下記を口頭で確認する。すぐに答えられない場合はもう一度読む。
- 拡散プロセスの「順方向」と「逆方向」はそれぞれ何をするか
- 潜在空間で作業する理由を一文で
- CLIP は何を入力に取って何を出力するか
- ステップ数を増やすメリットとデメリット
- 動画生成AIと画像生成AIの関係を一文で
9. このあと
- Node Philosophy — なぜ ComfyUI はノードベースなのか
- Getting Started — Comfy Cloud のはじめかた
- Minimum Workflow — 最小ワークフローを実際に動かす
