コンテンツにスキップ

Audio

Updated: 2026-05

1. このページについて

Runway の 音声生成機能(テキスト読み上げ、効果音、Lipsync)を扱う。動画に音をつけるとプロトタイピングの説得力が一気に上がる。

2. 音の3種類

ビデオプロトタイピングで扱う音は基本3種類:

種類 Runway の対応機能 用途
台詞・ナレーション Text to Speech, Lipsync キャラの語り、解説
効果音 (SFX) Generative Audio 環境音、特定の音
BGM (Runway 単独では弱い) 雰囲気、ムード

Runway は前2つは強いが、BGM は別ツール(Suno、AIVA、Adobe Firefly Audio など)で作った方が良いことが多い。

3. Text to Speech

テキストを音声に変換する基本機能。

3.1 使い方

  1. 左ナビ → Generative AudioText to Speech
  2. テキストを入力(最大 600 文字 / 1スピーカー)
  3. Voice を選択 — 多数のプリセット音声から選ぶ
  4. Generate → 音声ファイル生成

3.2 音声の種類

  • Preset Voices — Runway 標準のプリセット(無料)
  • Custom Voice — ElevenLabs 連携で 自分の声をクローン することも可能(プラン制限あり)

3.3 ナレーション活用例

  • 作品の冒頭に「これは未来の街の物語です」のような語り
  • キャラの心の声(モノローグ)
  • 解説的な字幕の読み上げ

4. Lipsync

最強の機能。動画の人物に対して、任意の音声で口パクさせる

4.1 基本フロー

  1. 左ナビ → Generative AudioLip Sync
  2. Video Source: 動画(人物の顔が映っているもの)をアップロード
  3. Audio Source: 音声を3通りで指定
    • テキスト入力(Text to Speech が裏で動く)
    • 音声ファイルをアップロード
    • その場で録音
  4. Generate → 口の動きが音声に合った動画

4.2 制約

  • 1 ダイアログあたり 600 文字まで
  • 1 動画に 最大10 ダイアログ(複数話者対応)
  • 顔が 正面〜半身正面 の動画が成功率高い
  • 横顔、暗い顔は精度が落ちる

4.3 Act-Two との関係

Act-Two演技そのもの を転写、Lipsync は 口元と音声の同期 に特化。

用途 推奨
表情・身振りも含めたい Act-Two
既存動画に台詞を追加したい Lipsync
口だけ動けば良い Lipsync(軽い)

5. 効果音 (SFX)

Runway の Generative Audio で効果音も生成できる。

5.1 使い方

  1. Generative AudioSound Effects(あるいは Generate Sound
  2. テキストで どんな音か を指示

例:

  • “Footsteps on wet pavement, slow pace”
  • “Distant thunder, low rumble”
  • “Bird chirping in a forest morning”

5.2 ライブラリの併用

すべてを AI 生成する必要はない。フリーの効果音ライブラリも活用:

授業の作品では AI 生成 + 既存ライブラリ のハイブリッドが現実的。

6. BGM

Runway 単独では BGM 生成は弱め。下記の使い分けが定石:

  • Suno — テキストで楽曲を生成(無料プランあり)
  • AIVA — 映画音楽寄り
  • Adobe Firefly Audio — Adobe 製
  • YouTube Audio Library — 著作権フリー、商用可

生成または選定した BGM を Runway Editor のタイムラインに追加する。

7. 音量バランス

タイムラインに乗せた後の調整:

  • BGM: -20 〜 -25 dB(小さめ)
  • 効果音: -15 〜 -20 dB
  • 台詞: -5 〜 -10 dB(一番大きい)

具体的な dB 値より「台詞が常に最も聞こえる」状態を維持するのが基本。

8. フェードイン・フェードアウト

クリップの音声の両端をフェードする:

  • BGM の 冒頭1秒、終端1秒 を最低でもフェード
  • 突然始まる/終わる音は素人感が強い
  • Editor で各音声クリップのエッジをドラッグでフェード設定

9. 著作権の注意

授業の作品でも下記は厳守:

  • 商用音楽の流用(Apple Music の楽曲など)
  • YouTube の動画から音声を抜き出す
  • ✓ AI 生成音声・効果音
  • ✓ クリエイティブ・コモンズ素材(CC BY などライセンス確認)
  • ✓ 著作権フリー宣言された素材

最終発表で動画が大学外に公開される可能性があるので、最初から 権利クリア の素材だけを使う。

10. 音設計の優先順位

ビデオプロトタイピングで時間がない時の優先順位:

  1. 台詞があるなら台詞(Lipsync または Text to Speech)
  2. メインの効果音 1〜2 個(足音、環境音など特徴的な音)
  3. BGM(うっすらと、最後に)
  4. その他の細かい SFX

完璧を目指すと時間が無限に消えるので、80% で完成宣言する 判断も大事。

11. 実習でのワークフロー例

30 秒短編の音設計:

時間
0:00-0:05 BGM フェードイン、雪の効果音
0:05-0:15 主人公の語り(Lipsync)、BGM 継続
0:15-0:25 環境音、足音、BGM 強調
0:25-0:30 BGM フェードアウト

3〜4 つの音素材で 30 秒を構成できる。1 グループ 30〜60 分で組める作業量。

12. このあと

  • Video Prototyping Mindset — 何を目指すかの考え方
  • Limits and Next — Runway の限界と他モデル