Diffusion Mechanism

Materials

ComfyUI

Diffusion Mechanism

Updated: 2026-05

1. このページで学ぶこと

ComfyUI のノードを操作するときに「内部で何が起きているか」がうっすら見えるようになることが目的。数式は出さない。比喩と図でいく。

理解できると下記が腑に落ちる:

拡散（diffusion） という名前は、もともと「インクが水に広がる」とか「香りが部屋に拡散する」という物理現象を指す。

拡散モデルがやっているのは、その逆再生だ。

学習時（順方向）: きれいな画像にノイズを少しずつ足していき、最後は完全なノイズにする。各段階での「ノイズ追加量」を AI に覚えさせる
生成時（逆方向）: ランダムなノイズから出発して、AI に「どのノイズを引けばよいか」を予測させ、少しずつノイズを引いていく。最終的に意味のある画像が浮かび上がる

ポイント: 生成は「一気に画像を作る」のではなく、ノイズを段階的に削る作業。

ピクセル空間（人間が見る通常の画像）で拡散プロセスを動かすと計算量が爆発する。512×512 の画像なら26万個の数値、1024×1024 なら100万個以上。

Stable Diffusion は、潜在空間（latent space）と呼ばれる圧縮された空間でほぼ全工程を行う。

潜在空間は「人間には意味の見えない数値の塊」だが、AI にとっては画像の特徴が効率よくまとまっている空間。Comfy Cloud のワークフローでもピンクの線で流れる「潜在画像」がこれ。

「purple galaxy bottle」というテキストを書くと、その通りの画像が出てくる。これがどう成り立っているか。

CLIP（Contrastive Language-Image Pretraining） が橋渡し役。

ワークフロー上では「CLIP テキストエンコード」ノードがこれ。プロンプトを書いた瞬間に CLIP がそれをベクトルに変え、K-Sampler に届ける。

ノイズを何回に分けて削るか。

プロンプトへの忠実度を制御する。

CFG はプロンプトと「無条件」の生成を比べて、プロンプト方向に強引に引っ張る量。強くしすぎるとアーティファクトが出る。

ノイズを削るアルゴリズム（サンプラー）と、各ステップでどれくらい削るかの戦略（スケジューラ）がペアで動く。

スケジューラ:

サンプラーとモデルの相性は、モデルカード（モデルの説明書）に書かれていることが多い。判らなければ euler / normal で OK。

動画生成AI（Wan、Sora、Kling）も、内部はほぼ「拡散モデルの3次元版」。

CLIP に相当する「テキスト→ベクトル」変換器、サンプラー、CFG といった仕組みは動画でも基本同じ。画像で身につけた感覚は動画にもそのまま使える。

これが本授業で「Comfy Cloud で画像生成を体験してから Runway で動画」と進める理由。

授業では時間を取って下記を口頭で確認する。すぐに答えられない場合はもう一度読む。