img2img and Inpaint
Updated: 2026-05
1. このページで学ぶこと
これまでは「テキストから画像を生成」(text-to-image)。本ページからは「既存画像を起点にする」2つの手法を扱う。
- img2img: 既存画像を「ノイズの土台」として使い、似た雰囲気で別画像を作る
- inpaint: 既存画像の一部だけをマスクで指定し、その部分だけを描き直す
授業ではどちらも基本ワークフローの拡張として扱う。
2. img2img の仕組み
通常の T2I では「空の潜在画像」(純粋なノイズ)から拡散プロセスが始まる。
img2img では:
- 入力画像を VAE で潜在空間に エンコード(画像→潜在に圧縮)
- その潜在画像にノイズを 少しだけ 足す
- その「半分ノイズの潜在画像」から拡散プロセスを開始
- プロンプトの方向に引っ張られながら描き直される
- VAE デコードで画像に戻す
つまり「完全なノイズではなく、元画像の特徴を残したノイズ から始める」のが img2img。
3. denoise(ノイズ除去率)の役割
img2img の最重要パラメータ。0.0〜1.0 の範囲で「どれくらいノイズを足すか」を決める。
| denoise | 結果 |
|---|---|
| 0.0 | 元画像と完全に同じ |
| 0.3 | 元画像をうっすら塗り直し、構図ほぼ維持 |
| 0.5 | 中程度、元画像の影響が半分残る |
| 0.7 | 元画像のシルエットだけ残る |
| 1.0 | 完全な T2I と同じ(元画像の影響なし) |
イメージ: denoise 値は「元画像をどれくらい忘れるか」の度合い。
4. img2img のワークフロー
最小ワークフロー(Minimum Workflow)から下記を変更する。
- 空の潜在画像 ノードを削除
- 画像を読み込む(Load Image) ノードを追加
- VAE エンコード ノードを追加(画像→潜在に圧縮)
- K-Sampler の
潜在画像入力に、VAE エンコードの出力を繋ぐ - K-Sampler の
denoiseを 1.0 から 0.5 など下げる
これだけで img2img になる。
4.1 サンプル流れ
- 元画像: 自分が撮った写真、SD で生成した画像、Web で入手したフリー素材など
- プロンプト: 「同じ構図で、油絵風に」「水彩画風に」「サイバーパンク風に」など
- denoise: 0.5〜0.7 程度から試す
5. inpaint の仕組み
img2img の発展版。「画像の一部だけ」を変えたい時に使う。
- 入力画像とそれに対応する マスク を用意(マスクは白黒画像で、白い部分が「変える領域」)
- マスク部分だけにノイズを乗せる
- プロンプトの方向に再描画
- マスク外の部分は元画像のまま残す
たとえば:
- 「人物の顔だけ別人にする」
- 「背景の電柱を消す」
- 「服の柄を変える」
- 「画像の左半分だけ別の風景にする」
6. inpaint のワークフロー
Comfy Cloud には マスクエディター が組み込まれている。手順:
- 画像を読み込む で対象画像をロード
- その画像ノードを右クリック → マスクを編集 を選択
- ブラシで「変えたい領域」を白く塗る
- 完了したらマスクが自動でノードに紐付けされる
- VAE エンコード(インペイント用) ノードを使う(通常の VAE エンコードと別物)
- K-Sampler に通常通り繋ぐ
denoise はここでも重要。マスク部分の「元の色をどれくらい残すか」を決める。0.7〜1.0 くらいで使うことが多い。
6.1 マスクのコツ
- 境界をぼかす: シャープなマスクだと継ぎ目が目立つ。エッジを少しぼかす
- 対象より少し大きめ: マスクは対象ぴったりではなく、少し余裕を持たせる
- 複数領域を一度に: マスクは複数の白領域を持てる
7. 関連テンプレート(Comfy Cloud 内)
Comfy Cloud のテンプレート > Popular には下記の関連ワークフローがある。
- Qwen Image Edit 2509: 画像編集とコントロールネットを統合した高度な編集ワークフロー
- Inpaint テンプレート(はじめにカテゴリにも類似のものあり)
- Outpaint テンプレート: 画像を外側に拡張する(範囲外のマスク領域を生成)
これらをベースに、自分のニーズに合わせて改造する。
8. クレジット消費の目安
- img2img: 通常の T2I と同程度(denoise が低くても、計算量は基本同じ)
- inpaint: 通常の T2I と同程度
特殊なテンプレート(Qwen Image Edit 等)は重めのモデルを使うので、若干高め(4〜8 cr/枚)。
9. 演習(授業向け)
演習A: 写真を絵画風に
- 自分が撮った写真や、A-1 のバナー画像(Z Image Turbo 出力)を img2img でロード
- プロンプト:
oil painting, impressionist style, brushstrokes, dramatic lighting - denoise: 0.5
- ステップ: 20、CFG: 7
- 数回実行して、どの denoise 値が好きか体感
演習B: 物体を消す
- 自分の写真をロード
- 消したい物体(電柱、看板、ゴミ箱など)の領域をマスクで塗る
- プロンプト: 周囲と同じ風景の説明(例: 元が空なら
clear blue sky) - denoise: 0.9 程度
- 結果を見て、自然に消えているか確認
演習C: 顔だけ変える
- 人物画像を用意(権利のあるもの)
- 顔の領域をマスク
- プロンプト:
portrait of an elderly Japanese man, weathered face, kind eyes - denoise: 0.85〜1.0
- 元の人物像から完全に置き換わるか確認
10. このあと
- ControlNet — 構図・姿勢を別画像で精密に指定
- LoRA — 画風や対象を絞り込む
- Image to Video — 静止画を動画に変える
