コンテンツにスキップ
img2img and Inpaint

img2img and Inpaint

Updated: 2026-05

1. このページで学ぶこと

これまでは「テキストから画像を生成」(text-to-image)。本ページからは「既存画像を起点にする」2つの手法を扱う。

  • img2img: 既存画像を「ノイズの土台」として使い、似た雰囲気で別画像を作る
  • inpaint: 既存画像の一部だけをマスクで指定し、その部分だけを描き直す

授業ではどちらも基本ワークフローの拡張として扱う。

2. img2img の仕組み

通常の T2I では「空の潜在画像」(純粋なノイズ)から拡散プロセスが始まる。

img2img では:

  1. 入力画像を VAE で潜在空間に エンコード(画像→潜在に圧縮)
  2. その潜在画像にノイズを 少しだけ 足す
  3. その「半分ノイズの潜在画像」から拡散プロセスを開始
  4. プロンプトの方向に引っ張られながら描き直される
  5. VAE デコードで画像に戻す

つまり「完全なノイズではなく、元画像の特徴を残したノイズ から始める」のが img2img。

3. denoise(ノイズ除去率)の役割

img2img の最重要パラメータ。0.0〜1.0 の範囲で「どれくらいノイズを足すか」を決める。

denoise 結果
0.0 元画像と完全に同じ
0.3 元画像をうっすら塗り直し、構図ほぼ維持
0.5 中程度、元画像の影響が半分残る
0.7 元画像のシルエットだけ残る
1.0 完全な T2I と同じ(元画像の影響なし)

イメージ: denoise 値は「元画像をどれくらい忘れるか」の度合い。

4. img2img のワークフロー

最小ワークフロー(Minimum Workflow)から下記を変更する。

  1. 空の潜在画像 ノードを削除
  2. 画像を読み込む(Load Image) ノードを追加
  3. VAE エンコード ノードを追加(画像→潜在に圧縮)
  4. K-Sampler の 潜在画像 入力に、VAE エンコードの出力を繋ぐ
  5. K-Sampler の denoise を 1.0 から 0.5 など下げる

これだけで img2img になる。

4.1 サンプル流れ

  • 元画像: 自分が撮った写真、SD で生成した画像、Web で入手したフリー素材など
  • プロンプト: 「同じ構図で、油絵風に」「水彩画風に」「サイバーパンク風に」など
  • denoise: 0.5〜0.7 程度から試す

5. inpaint の仕組み

img2img の発展版。「画像の一部だけ」を変えたい時に使う。

  1. 入力画像とそれに対応する マスク を用意(マスクは白黒画像で、白い部分が「変える領域」)
  2. マスク部分だけにノイズを乗せる
  3. プロンプトの方向に再描画
  4. マスク外の部分は元画像のまま残す

たとえば:

  • 「人物の顔だけ別人にする」
  • 「背景の電柱を消す」
  • 「服の柄を変える」
  • 「画像の左半分だけ別の風景にする」

6. inpaint のワークフロー

Comfy Cloud には マスクエディター が組み込まれている。手順:

  1. 画像を読み込む で対象画像をロード
  2. その画像ノードを右クリック → マスクを編集 を選択
  3. ブラシで「変えたい領域」を白く塗る
  4. 完了したらマスクが自動でノードに紐付けされる
  5. VAE エンコード(インペイント用) ノードを使う(通常の VAE エンコードと別物)
  6. K-Sampler に通常通り繋ぐ

denoise はここでも重要。マスク部分の「元の色をどれくらい残すか」を決める。0.7〜1.0 くらいで使うことが多い。

6.1 マスクのコツ

  • 境界をぼかす: シャープなマスクだと継ぎ目が目立つ。エッジを少しぼかす
  • 対象より少し大きめ: マスクは対象ぴったりではなく、少し余裕を持たせる
  • 複数領域を一度に: マスクは複数の白領域を持てる

7. 関連テンプレート(Comfy Cloud 内)

Comfy Cloud のテンプレート > Popular には下記の関連ワークフローがある。

  • Qwen Image Edit 2509: 画像編集とコントロールネットを統合した高度な編集ワークフロー
  • Inpaint テンプレート(はじめにカテゴリにも類似のものあり)
  • Outpaint テンプレート: 画像を外側に拡張する(範囲外のマスク領域を生成)

これらをベースに、自分のニーズに合わせて改造する。

8. クレジット消費の目安

  • img2img: 通常の T2I と同程度(denoise が低くても、計算量は基本同じ)
  • inpaint: 通常の T2I と同程度

特殊なテンプレート(Qwen Image Edit 等)は重めのモデルを使うので、若干高め(4〜8 cr/枚)。

9. 演習(授業向け)

演習A: 写真を絵画風に

  • 自分が撮った写真や、A-1 のバナー画像(Z Image Turbo 出力)を img2img でロード
  • プロンプト: oil painting, impressionist style, brushstrokes, dramatic lighting
  • denoise: 0.5
  • ステップ: 20、CFG: 7
  • 数回実行して、どの denoise 値が好きか体感

演習B: 物体を消す

  • 自分の写真をロード
  • 消したい物体(電柱、看板、ゴミ箱など)の領域をマスクで塗る
  • プロンプト: 周囲と同じ風景の説明(例: 元が空なら clear blue sky
  • denoise: 0.9 程度
  • 結果を見て、自然に消えているか確認

演習C: 顔だけ変える

  • 人物画像を用意(権利のあるもの)
  • 顔の領域をマスク
  • プロンプト: portrait of an elderly Japanese man, weathered face, kind eyes
  • denoise: 0.85〜1.0
  • 元の人物像から完全に置き換わるか確認

10. このあと

  • ControlNet — 構図・姿勢を別画像で精密に指定
  • LoRA — 画風や対象を絞り込む
  • Image to Video — 静止画を動画に変える