動画の音声を映像品質を保ったまま差し替える方法

映像再エンコードを避けることの重要性

H.264・H.265などの映像コーデックは非可逆圧縮です。映像を再エンコードするたびに画質が劣化します（世代劣化）。特にビットレートを下げての再エンコードでは、ブロックノイズ・モスキートノイズ・細部のぼけなどの視覚的劣化が発生します。また、エンコード処理はCPUに高い負荷をかけるため、長時間動画では処理時間も大幅に増加します。

音声を修正・改善するだけの目的で映像を再エンコードすることは、時間とファイルサイズの面でも非効率です。特に、すでに高品質の映像が収録されている場合、再エンコードでの品質低下は特に避けたいことです。VideoAudioTuneは映像をストリームコピー（そのままコピー）することで、これらの問題を完全に回避します。

ffmpegのストリームコピー（-c:v copy）

ffmpegで映像を再エンコードせずに音声だけを差し替えるには、映像ストリームにコピーオプション（-c:v copy または -vcodec copy）を指定します。このオプションを使うと、映像のデコード・エンコード処理がスキップされ、元の映像データがそのまま出力ファイルに書き込まれます。

コマンドラインでの例：ffmpeg -i input.mp4 -i new_audio.aac -c:v copy -c:a aac -map 0:v:0 -map 1:a:0 output.mp4。このコマンドはinput.mp4の映像ストリームをコピーし、new_audio.aacを音声ストリームとして合成してoutput.mp4を生成します。VideoAudioTuneはこれと同等の処理をffmpeg.wasmを使ってブラウザ内で自動的に行います。

VideoAudioTuneの音声差し替え処理フロー

VideoAudioTuneの内部処理を詳しく説明します。Step 1：元の動画ファイルから映像ストリームと音声ストリームを分離します。Step 2：ffmpeg.wasmを使って音声ストリームをWAV形式（PCM）として抽出します。Step 3：Web Audio APIのOfflineAudioContextを使って、選択されたEQプリセット・コンプレッサー・ゲイン調整をWAV音声に適用します。Step 4：処理済みのWAV音声をffmpeg.wasmでAAC形式にエンコードします。Step 5：元の映像ストリーム（-c:v copyでコピー）と新しいAAC音声を合成してMP4ファイルを生成します。

このフローにより、映像の画質はまったく変化せず、音声だけがEQとコンプレッサーで処理されたAACに差し替えられます。映像のビットレート・コーデック・フレームレート・解像度はすべて元の動画と同一です。処理速度も映像の再エンコードが不要なため、大幅に短縮されます。

音声差し替えの活用シーン

音声差し替えのテクニックが活用できる主なシーンを紹介します。動画編集後の音声仕上げ：編集ソフトで書き出した動画の音声品質を後から改善したい場合。動画の音楽を別の楽曲に差し替えたい場合（著作権フリー音楽への変更等）：動画編集ソフトで音楽を差し替えてから書き出す際にVideoAudioTuneで音声を整えるという流れも有効です。

YouTubeの著作権フリー化：著作権のある音楽を含む動画の音声のみを差し替えて再公開する際に活用できます。ただし、このような使い方には著作権や利用規約への注意が必要です。ポッドキャスト動画版：音声コンテンツに静止画を合わせたMP4を作成した後、音声を後からEQで最適化する場合にも有効です。

音声差し替えの技術的制約

VideoAudioTuneで音声差し替えを行う際の技術的制約を把握しておきましょう。映像のコーデックがH.264またはH.265のMP4・MOVファイルは問題なく処理できます。ただし、コーデックがVP9やAV1のWebMファイル、またはAVIやMKVファイルは現時点では対応していません。

出力は常にMP4（H.264/H.265映像 + AAC音声）になります。元の映像コーデックがH.264であればそのままコピーされ、H.265もコピーされます。音声コーデックはPCM（WAV）を経由してAACに変換されます。元の動画の音声がすでにAACの場合も、WAV→AACという再エンコードが発生しますが、高ビットレート（192〜320kbps）でエンコードするため品質への影響は最小限です。

まとめ

映像を再エンコードせずに音声だけを差し替えることで、画質の劣化なく音声品質を改善できます。VideoAudioTuneはffmpeg.wasmのストリームコピー機能を使ってこれを自動的に実現します。音声EQ・コンプレッサー処理後の動画は、元の映像品質をそのまま保ちながら音声だけが改善された状態で出力されます。