Audio
Updated: 2026-05
1. このページについて
Runway の 音声生成機能(テキスト読み上げ、効果音、Lipsync)を扱う。動画に音をつけるとプロトタイピングの説得力が一気に上がる。
2. 音の3種類
ビデオプロトタイピングで扱う音は基本3種類:
| 種類 | Runway の対応機能 | 用途 |
|---|---|---|
| 台詞・ナレーション | Text to Speech, Lipsync | キャラの語り、解説 |
| 効果音 (SFX) | Generative Audio | 環境音、特定の音 |
| BGM | (Runway 単独では弱い) | 雰囲気、ムード |
Runway は前2つは強いが、BGM は別ツール(Suno、AIVA、Adobe Firefly Audio など)で作った方が良いことが多い。
3. Text to Speech
テキストを音声に変換する基本機能。
3.1 使い方
- 左ナビ → Generative Audio → Text to Speech
- テキストを入力(最大 600 文字 / 1スピーカー)
- Voice を選択 — 多数のプリセット音声から選ぶ
- Generate → 音声ファイル生成
3.2 音声の種類
- Preset Voices — Runway 標準のプリセット(無料)
- Custom Voice — ElevenLabs 連携で 自分の声をクローン することも可能(プラン制限あり)
3.3 ナレーション活用例
- 作品の冒頭に「これは未来の街の物語です」のような語り
- キャラの心の声(モノローグ)
- 解説的な字幕の読み上げ
4. Lipsync
最強の機能。動画の人物に対して、任意の音声で口パクさせる。
4.1 基本フロー
- 左ナビ → Generative Audio → Lip Sync
- Video Source: 動画(人物の顔が映っているもの)をアップロード
- Audio Source: 音声を3通りで指定
- テキスト入力(Text to Speech が裏で動く)
- 音声ファイルをアップロード
- その場で録音
- Generate → 口の動きが音声に合った動画
4.2 制約
- 1 ダイアログあたり 600 文字まで
- 1 動画に 最大10 ダイアログ(複数話者対応)
- 顔が 正面〜半身正面 の動画が成功率高い
- 横顔、暗い顔は精度が落ちる
4.3 Act-Two との関係
Act-Two は 演技そのもの を転写、Lipsync は 口元と音声の同期 に特化。
| 用途 | 推奨 |
|---|---|
| 表情・身振りも含めたい | Act-Two |
| 既存動画に台詞を追加したい | Lipsync |
| 口だけ動けば良い | Lipsync(軽い) |
5. 効果音 (SFX)
Runway の Generative Audio で効果音も生成できる。
5.1 使い方
- Generative Audio → Sound Effects(あるいは Generate Sound)
- テキストで どんな音か を指示
例:
- “Footsteps on wet pavement, slow pace”
- “Distant thunder, low rumble”
- “Bird chirping in a forest morning”
5.2 ライブラリの併用
すべてを AI 生成する必要はない。フリーの効果音ライブラリも活用:
- Freesound.org — クリエイティブ・コモンズの大規模ライブラリ
- Pixabay Audio — 商用利用可
- BBC Sound Effects — 50,000 以上の高品質音源
授業の作品では AI 生成 + 既存ライブラリ のハイブリッドが現実的。
6. BGM
Runway 単独では BGM 生成は弱め。下記の使い分けが定石:
- Suno — テキストで楽曲を生成(無料プランあり)
- AIVA — 映画音楽寄り
- Adobe Firefly Audio — Adobe 製
- YouTube Audio Library — 著作権フリー、商用可
生成または選定した BGM を Runway Editor のタイムラインに追加する。
7. 音量バランス
タイムラインに乗せた後の調整:
- BGM: -20 〜 -25 dB(小さめ)
- 効果音: -15 〜 -20 dB
- 台詞: -5 〜 -10 dB(一番大きい)
具体的な dB 値より「台詞が常に最も聞こえる」状態を維持するのが基本。
8. フェードイン・フェードアウト
クリップの音声の両端をフェードする:
- BGM の 冒頭1秒、終端1秒 を最低でもフェード
- 突然始まる/終わる音は素人感が強い
- Editor で各音声クリップのエッジをドラッグでフェード設定
9. 著作権の注意
授業の作品でも下記は厳守:
- ✗ 商用音楽の流用(Apple Music の楽曲など)
- ✗ YouTube の動画から音声を抜き出す
- ✓ AI 生成音声・効果音
- ✓ クリエイティブ・コモンズ素材(CC BY などライセンス確認)
- ✓ 著作権フリー宣言された素材
最終発表で動画が大学外に公開される可能性があるので、最初から 権利クリア の素材だけを使う。
10. 音設計の優先順位
ビデオプロトタイピングで時間がない時の優先順位:
- 台詞があるなら台詞(Lipsync または Text to Speech)
- メインの効果音 1〜2 個(足音、環境音など特徴的な音)
- BGM(うっすらと、最後に)
- その他の細かい SFX
完璧を目指すと時間が無限に消えるので、80% で完成宣言する 判断も大事。
11. 実習でのワークフロー例
30 秒短編の音設計:
| 時間 | 音 |
|---|---|
| 0:00-0:05 | BGM フェードイン、雪の効果音 |
| 0:05-0:15 | 主人公の語り(Lipsync)、BGM 継続 |
| 0:15-0:25 | 環境音、足音、BGM 強調 |
| 0:25-0:30 | BGM フェードアウト |
3〜4 つの音素材で 30 秒を構成できる。1 グループ 30〜60 分で組める作業量。
12. このあと
- Video Prototyping Mindset — 何を目指すかの考え方
- Limits and Next — Runway の限界と他モデル
