コンテンツにスキップ
Image to Video

Image to Video

Updated: 2026-05

1. このページで学ぶこと

静止画を起点に、短い動画クリップを生成する。Comfy Cloud には Wan 2.2 と LTX-2.3 の動画生成モデルが組み込まれており、無料プランでも動作する。

授業ではこの体験を通して 動画生成AIの仕組みと現状の限界 を肌で感じる。次に Runway を扱うときの「中身がわかった上で使うツール」という視点に繋がる。

2. 動画生成AIの仕組み(再掲)

Diffusion Mechanism で触れたが要点だけ:

  • 画像版: 潜在空間で 2次元 のノイズを削る
  • 動画版: 潜在空間で 時間軸も含めた3次元 のノイズを削る

Wan 2.2 や LTX-2.3 は本質的に「3D の拡散モデル」。プロンプトとサンプリング、CFG といった概念は画像生成と共通。画像で身につけた感覚はそのまま動画でも使える

3. 主要モデル(Comfy Cloud 内蔵)

3.1 Wan 2.2

中国の Tongyi Lab 開発のオープンソース動画生成。

  • Image-to-Video(i2v): 1枚の画像 + テキストプロンプト → 動画
  • Text-to-Video(t2v): テキストプロンプト → 動画
  • 標準 5秒クリップ、640×640 や 720p
  • 公式値: 1本あたり約 11.4 クレジット(4ステップ高速版 LoRA 込み)

3.2 LTX-2.3

Lightricks 開発の動画生成モデル。

  • 軽量・高速で、リップシンクや特定のワークフローに強い
  • talkvid / celebvhq 用 LoRA も完備
  • 同等のクレジット消費(10〜15 cr/本)

3.3 Wan 2.2 Animate

Comfy Cloud のテンプレートに組み込まれた キャラクター置換 ワークフロー。

  • 動画 + キャラ画像 → そのキャラで動画を再構成
  • ポーズや動きを保ちながら見た目を変える

4. 基本的な i2v ワークフロー(Wan 2.2)

Comfy Cloud のテンプレート > はじめに > 「1.2 スターター:画像から動画へ」 が学習用の入門ワークフロー。

主要ノード:

  • 画像を読み込む — 起点となる静止画
  • Wan 2.2 i2v モデル ロード
  • VAE / CLIP ロード(Wan 用)
  • プロンプトエンコード
  • K-Sampler(動画版) — 4ステップ高速 LoRA を併用
  • VAE デコード(動画版)
  • 動画を保存(mp4 出力)

ヒント: テンプレートには「Step 1 - Connect nodes」のような学習ガイドが入っているものがある。指示通りに繋ぐことでワークフローが完成する。

5. 主要パラメータ(動画特有)

パラメータ 意味 推奨値
frame_count 総フレーム数 81(5秒@18fps)
fps フレームレート 18
resolution 解像度 640×640(軽量)/ 1280×720(標準)
steps サンプリングステップ 4(高速 LoRA 併用時)/ 20(標準)
prompt 動きの指示も含める “the woman turns her head slowly to the left” など

プロンプトは静止画より「動き」の指示を入れるのが鍵。「ゆっくり風が吹く」「水面が揺れる」「人物が歩く」など。

6. 動画生成の限界(2026年5月時点)

授業中に学生に体感してもらうべき限界:

  • 長さ: 1回の生成で 5〜10 秒が現実的。それ以上は破綻リスク高
  • 顔の一貫性: 顔が途中で別人化することがある(Wan 2.2 はこれが比較的少ない)
  • 物理法則: 重力・慣性・接触の表現はまだ怪しい
  • 複数人物: 2人以上の同時アニメーションは破綻しやすい
  • テキスト: 動画中の文字(看板、字幕)はほぼ無理
  • 複雑な動き: ダンスや戦闘シーンは不安定

これらは「Runway Gen-4 や Sora 2 のような商用最上位モデルで一部解決されている」が、いずれも完全ではない。学生にはこの限界を知ってから Runway 演習に進んでもらうのが本コースの設計意図。

7. クレジット消費

授業で使える時間内にできること(学生1人 400クレジット/月の予算で):

操作 消費 月間可能回数
Wan 2.2 5秒動画(標準) 約 11 cr 約 35
LTX-2.3 5秒動画 約 10〜15 cr 約 25〜40
Wan 2.2 Animate(キャラ置換) 約 15〜25 cr 約 16〜26

授業設計では「1人 1〜2本 動画を生成する」程度に抑える。試行錯誤は画像段階で、確信が持ててから動画に進む。

8. プロンプトのコツ

8.1 動きを明示する

  • 悪い例: “a beautiful landscape”(静止画と同じ)
  • 良い例: “a beautiful landscape, gentle wind blowing through grass, clouds drifting slowly”

8.2 カメラの動きを指定

  • “static camera”(カメラ固定)
  • “slow zoom in”(ゆっくりズームイン)
  • “panning right”(右にパン)
  • “dolly forward”(前進)

カメラ指定で映像作品らしさが大きく変わる。

8.3 対象を限定する

動く要素を1つに絞ると安定する。

  • 「人物全体が動く」ではなく「人物の顔だけ動く」
  • 「全部が動く風景」ではなく「水面だけ揺れる風景」

9. 演習(授業向け)

演習A: 静止画を動かす

  • C-1 や A-1 で生成した自分の画像を1枚選ぶ
  • Wan 2.2 i2v ワークフローにロード
  • プロンプト: シーンに合った動き(風、水、表情変化など)
  • 5秒生成、結果を観察

演習B: プロンプトの効果

  • 同じ静止画を起点に、動きのプロンプトだけ変える
  • “static, no movement” / “slow zoom in” / “gentle wind, leaves swaying”
  • 結果の違いを比較

演習C: 限界を見つける

  • 意図的に難しい動きを試す
  • 「人が走る」「2人が会話する」「文字が表示される」など
  • どこで破綻するか観察 → 限界の理解

これは Runway 演習に進む前の重要な体験。

10. 動画の保存

  • ワークフロー実行後、動画を保存 ノードに動画プレイヤーが表示される
  • プレイヤー右上の三点メニュー → ダウンロード で mp4 をローカル保存
  • 履歴パネルからも過去の動画を再ダウンロード可能

11. このあと

  • Prompt Play — 面白プロンプトで遊ぶ
  • Algorithm Exposure — 内部を覗く実験
  • To Runway — 動画生成AIの世界全体と、Runway 演習への橋渡し