Image to Video

Materials

ComfyUI

Image to Video

Updated: 2026-05

1. このページで学ぶこと

静止画を起点に、短い動画クリップを生成する。Comfy Cloud には Wan 2.2 と LTX-2.3 の動画生成モデルが組み込まれており、無料プランでも動作する。

授業ではこの体験を通して 動画生成AIの仕組みと現状の限界 を肌で感じる。次に Runway を扱うときの「中身がわかった上で使うツール」という視点に繋がる。

2. 動画生成AIの仕組み（再掲）

Diffusion Mechanism で触れたが要点だけ:

画像版: 潜在空間で 2次元 のノイズを削る
動画版: 潜在空間で 時間軸も含めた3次元 のノイズを削る

Wan 2.2 や LTX-2.3 は本質的に「3D の拡散モデル」。プロンプトとサンプリング、CFG といった概念は画像生成と共通。画像で身につけた感覚はそのまま動画でも使える。

3. 主要モデル（Comfy Cloud 内蔵）

3.1 Wan 2.2

中国の Tongyi Lab 開発のオープンソース動画生成。

Image-to-Video（i2v）: 1枚の画像 + テキストプロンプト → 動画
Text-to-Video（t2v）: テキストプロンプト → 動画
標準 5秒クリップ、640×640 や 720p
公式値: 1本あたり約 11.4 クレジット（4ステップ高速版 LoRA 込み）

3.2 LTX-2.3

Lightricks 開発の動画生成モデル。

軽量・高速で、リップシンクや特定のワークフローに強い
talkvid / celebvhq 用 LoRA も完備
同等のクレジット消費（10〜15 cr/本）

3.3 Wan 2.2 Animate

Comfy Cloud のテンプレートに組み込まれた キャラクター置換 ワークフロー。

動画 + キャラ画像 → そのキャラで動画を再構成
ポーズや動きを保ちながら見た目を変える

4. 基本的な i2v ワークフロー（Wan 2.2）

Comfy Cloud のテンプレート > はじめに > 「1.2 スターター：画像から動画へ」 が学習用の入門ワークフロー。

主要ノード:

画像を読み込む — 起点となる静止画
Wan 2.2 i2v モデル ロード
VAE / CLIP ロード（Wan 用）
プロンプトエンコード
K-Sampler（動画版） — 4ステップ高速 LoRA を併用
VAE デコード（動画版）
動画を保存（mp4 出力）

ヒント: テンプレートには「Step 1 - Connect nodes」のような学習ガイドが入っているものがある。指示通りに繋ぐことでワークフローが完成する。

5. 主要パラメータ（動画特有）

パラメータ	意味	推奨値
frame_count	総フレーム数	81（5秒@18fps）
fps	フレームレート	18
resolution	解像度	640×640（軽量）／ 1280×720（標準）
steps	サンプリングステップ	4（高速 LoRA 併用時）／ 20（標準）
prompt	動きの指示も含める	“the woman turns her head slowly to the left” など

プロンプトは静止画より「動き」の指示を入れるのが鍵。「ゆっくり風が吹く」「水面が揺れる」「人物が歩く」など。

6. 動画生成の限界（2026年5月時点）

授業中に学生に体感してもらうべき限界:

長さ: 1回の生成で 5〜10 秒が現実的。それ以上は破綻リスク高
顔の一貫性: 顔が途中で別人化することがある（Wan 2.2 はこれが比較的少ない）
物理法則: 重力・慣性・接触の表現はまだ怪しい
複数人物: 2人以上の同時アニメーションは破綻しやすい
テキスト: 動画中の文字（看板、字幕）はほぼ無理
複雑な動き: ダンスや戦闘シーンは不安定

これらは「Runway Gen-4 や Sora 2 のような商用最上位モデルで一部解決されている」が、いずれも完全ではない。学生にはこの限界を知ってから Runway 演習に進んでもらうのが本コースの設計意図。

7. クレジット消費

授業で使える時間内にできること（学生1人 400クレジット/月の予算で）:

操作	消費	月間可能回数
Wan 2.2 5秒動画（標準）	約 11 cr	約 35
LTX-2.3 5秒動画	約 10〜15 cr	約 25〜40
Wan 2.2 Animate（キャラ置換）	約 15〜25 cr	約 16〜26

授業設計では「1人 1〜2本 動画を生成する」程度に抑える。試行錯誤は画像段階で、確信が持ててから動画に進む。

8. プロンプトのコツ

8.1 動きを明示する

悪い例: “a beautiful landscape”（静止画と同じ）
良い例: “a beautiful landscape, gentle wind blowing through grass, clouds drifting slowly”

8.2 カメラの動きを指定

“static camera”（カメラ固定）
“slow zoom in”（ゆっくりズームイン）
“panning right”（右にパン）
“dolly forward”（前進）

カメラ指定で映像作品らしさが大きく変わる。

8.3 対象を限定する

動く要素を1つに絞ると安定する。

「人物全体が動く」ではなく「人物の顔だけ動く」
「全部が動く風景」ではなく「水面だけ揺れる風景」

9. 演習（授業向け）

演習A: 静止画を動かす

C-1 や A-1 で生成した自分の画像を1枚選ぶ
Wan 2.2 i2v ワークフローにロード
プロンプト: シーンに合った動き（風、水、表情変化など）
5秒生成、結果を観察

演習B: プロンプトの効果

同じ静止画を起点に、動きのプロンプトだけ変える
“static, no movement” / “slow zoom in” / “gentle wind, leaves swaying”
結果の違いを比較

演習C: 限界を見つける

意図的に難しい動きを試す
「人が走る」「2人が会話する」「文字が表示される」など
どこで破綻するか観察 → 限界の理解

これは Runway 演習に進む前の重要な体験。

10. 動画の保存

ワークフロー実行後、動画を保存 ノードに動画プレイヤーが表示される
プレイヤー右上の三点メニュー → ダウンロード で mp4 をローカル保存
履歴パネルからも過去の動画を再ダウンロード可能

11. このあと

Prompt Play — 面白プロンプトで遊ぶ
Algorithm Exposure — 内部を覗く実験
To Runway — 動画生成AIの世界全体と、Runway 演習への橋渡し

LoRA Prompt Play