Image to Video
Updated: 2026-05
1. このページで学ぶこと
静止画を起点に、短い動画クリップを生成する。Comfy Cloud には Wan 2.2 と LTX-2.3 の動画生成モデルが組み込まれており、無料プランでも動作する。
授業ではこの体験を通して 動画生成AIの仕組みと現状の限界 を肌で感じる。次に Runway を扱うときの「中身がわかった上で使うツール」という視点に繋がる。
2. 動画生成AIの仕組み(再掲)
Diffusion Mechanism で触れたが要点だけ:
- 画像版: 潜在空間で 2次元 のノイズを削る
- 動画版: 潜在空間で 時間軸も含めた3次元 のノイズを削る
Wan 2.2 や LTX-2.3 は本質的に「3D の拡散モデル」。プロンプトとサンプリング、CFG といった概念は画像生成と共通。画像で身につけた感覚はそのまま動画でも使える。
3. 主要モデル(Comfy Cloud 内蔵)
3.1 Wan 2.2
中国の Tongyi Lab 開発のオープンソース動画生成。
- Image-to-Video(i2v): 1枚の画像 + テキストプロンプト → 動画
- Text-to-Video(t2v): テキストプロンプト → 動画
- 標準 5秒クリップ、640×640 や 720p
- 公式値: 1本あたり約 11.4 クレジット(4ステップ高速版 LoRA 込み)
3.2 LTX-2.3
Lightricks 開発の動画生成モデル。
- 軽量・高速で、リップシンクや特定のワークフローに強い
- talkvid / celebvhq 用 LoRA も完備
- 同等のクレジット消費(10〜15 cr/本)
3.3 Wan 2.2 Animate
Comfy Cloud のテンプレートに組み込まれた キャラクター置換 ワークフロー。
- 動画 + キャラ画像 → そのキャラで動画を再構成
- ポーズや動きを保ちながら見た目を変える
4. 基本的な i2v ワークフロー(Wan 2.2)
Comfy Cloud のテンプレート > はじめに > 「1.2 スターター:画像から動画へ」 が学習用の入門ワークフロー。
主要ノード:
- 画像を読み込む — 起点となる静止画
- Wan 2.2 i2v モデル ロード
- VAE / CLIP ロード(Wan 用)
- プロンプトエンコード
- K-Sampler(動画版) — 4ステップ高速 LoRA を併用
- VAE デコード(動画版)
- 動画を保存(mp4 出力)
ヒント: テンプレートには「Step 1 - Connect nodes」のような学習ガイドが入っているものがある。指示通りに繋ぐことでワークフローが完成する。
5. 主要パラメータ(動画特有)
| パラメータ | 意味 | 推奨値 |
|---|---|---|
| frame_count | 総フレーム数 | 81(5秒@18fps) |
| fps | フレームレート | 18 |
| resolution | 解像度 | 640×640(軽量)/ 1280×720(標準) |
| steps | サンプリングステップ | 4(高速 LoRA 併用時)/ 20(標準) |
| prompt | 動きの指示も含める | “the woman turns her head slowly to the left” など |
プロンプトは静止画より「動き」の指示を入れるのが鍵。「ゆっくり風が吹く」「水面が揺れる」「人物が歩く」など。
6. 動画生成の限界(2026年5月時点)
授業中に学生に体感してもらうべき限界:
- 長さ: 1回の生成で 5〜10 秒が現実的。それ以上は破綻リスク高
- 顔の一貫性: 顔が途中で別人化することがある(Wan 2.2 はこれが比較的少ない)
- 物理法則: 重力・慣性・接触の表現はまだ怪しい
- 複数人物: 2人以上の同時アニメーションは破綻しやすい
- テキスト: 動画中の文字(看板、字幕)はほぼ無理
- 複雑な動き: ダンスや戦闘シーンは不安定
これらは「Runway Gen-4 や Sora 2 のような商用最上位モデルで一部解決されている」が、いずれも完全ではない。学生にはこの限界を知ってから Runway 演習に進んでもらうのが本コースの設計意図。
7. クレジット消費
授業で使える時間内にできること(学生1人 400クレジット/月の予算で):
| 操作 | 消費 | 月間可能回数 |
|---|---|---|
| Wan 2.2 5秒動画(標準) | 約 11 cr | 約 35 |
| LTX-2.3 5秒動画 | 約 10〜15 cr | 約 25〜40 |
| Wan 2.2 Animate(キャラ置換) | 約 15〜25 cr | 約 16〜26 |
授業設計では「1人 1〜2本 動画を生成する」程度に抑える。試行錯誤は画像段階で、確信が持ててから動画に進む。
8. プロンプトのコツ
8.1 動きを明示する
- 悪い例: “a beautiful landscape”(静止画と同じ)
- 良い例: “a beautiful landscape, gentle wind blowing through grass, clouds drifting slowly”
8.2 カメラの動きを指定
- “static camera”(カメラ固定)
- “slow zoom in”(ゆっくりズームイン)
- “panning right”(右にパン)
- “dolly forward”(前進)
カメラ指定で映像作品らしさが大きく変わる。
8.3 対象を限定する
動く要素を1つに絞ると安定する。
- 「人物全体が動く」ではなく「人物の顔だけ動く」
- 「全部が動く風景」ではなく「水面だけ揺れる風景」
9. 演習(授業向け)
演習A: 静止画を動かす
- C-1 や A-1 で生成した自分の画像を1枚選ぶ
- Wan 2.2 i2v ワークフローにロード
- プロンプト: シーンに合った動き(風、水、表情変化など)
- 5秒生成、結果を観察
演習B: プロンプトの効果
- 同じ静止画を起点に、動きのプロンプトだけ変える
- “static, no movement” / “slow zoom in” / “gentle wind, leaves swaying”
- 結果の違いを比較
演習C: 限界を見つける
- 意図的に難しい動きを試す
- 「人が走る」「2人が会話する」「文字が表示される」など
- どこで破綻するか観察 → 限界の理解
これは Runway 演習に進む前の重要な体験。
10. 動画の保存
- ワークフロー実行後、動画を保存 ノードに動画プレイヤーが表示される
- プレイヤー右上の三点メニュー → ダウンロード で mp4 をローカル保存
- 履歴パネルからも過去の動画を再ダウンロード可能
11. このあと
- Prompt Play — 面白プロンプトで遊ぶ
- Algorithm Exposure — 内部を覗く実験
- To Runway — 動画生成AIの世界全体と、Runway 演習への橋渡し
