インタビュー動画やポッドキャストの編集で、
話し手の「えー」「あのー」「そのー」といった
不要な言葉(フィラーワード)をカットした経験は誰にでもあるでしょう。
しかし、波形をただ分割して削除し、
前後のクリップをくっつけただけでは以下のような問題が起こります。
- 繋ぎ目で「ブチッ」「プツッ」というノイズが鳴る
- 息継ぎ(ブレス)が不自然に消え、ロボットのような喋りになる
- 言葉と言葉の間(ま)がなくなり、聞き手が疲れるテンポになる
この記事では、音声編集の初心者を卒業し、
プロのクオリティを目指す中級者に向けて、
「視聴者に編集されたことすら気づかせない、
自然で滑らかなカット技法」を波形レベルで細かく解説します。
【初級編】なぜカットすると「ブチッ」と鳴るのか?波形の基礎知識
まずは、音声をカットした際に発生する
「ブチッ」「プツッ」というノイズ(ポップノイズ・クリックノイズ)の原因と、
その根本的な解決策を理解しましょう。
音声は「波」である
音声編集ソフト(Premiere Pro、DaVinci Resolve、Audition、RXなど)で
タイムラインを限界まで拡大すると、音声が上下に振動する「波(波形)」であることがわかります。
この波が中心の横線(音量ゼロのライン)から上にいくほどプラスの圧力、
下にいくほどマイナスの圧力を表しています。
「ゼロクロス点」を見極める
ノイズが発生する最大の原因は、
「波形がプラスまたはマイナスに振れている途中でぶつ切りにしているから」です。
波が山や谷の途中にある状態で別の波と強制的に繋げると、
スピーカーのコーンが瞬間的に移動しようとして「ブチッ」という音を鳴らしてしまいます。
プロの鉄則:カットは必ず「ゼロクロス点」で行う
ゼロクロス点とは、波形がプラスからマイナスへ、またはマイナスからプラスへ移行する
「ちょうど中心線(音量ゼロ)と交わるポイント」のことです。音を分割する際、タイムラインを限界まで拡大し、
このゼロクロス点でカットすることで、クリックノイズを100%防ぐことができます。
最近の編集ソフトには
「ゼロ交差にスナップ(Snap to Zero Crossing)」という機能が備わっていることが多いので、
必ずこの機能をONにして作業しましょう。
【中級編】「えー」「あのー」の構造と分解
ゼロクロス点で切る技術を身につけたら、次は「どこを切るか」です。
フィラーワードは単独で存在しているわけではなく、前後の言葉や「息」と複雑に絡み合っています。
言葉の前にある「ブレス(息継ぎ)」の扱い
人が「えー、本日は…」と喋る前には、必ず「(スゥッ)えー、」という息継ぎ(ブレス)が入っています。
初心者がやりがちな失敗は、「えー」と一緒にこのブレスまで全てカットしてしまうことです。
ブレスが完全に消えると、人間味がなくなり、非常に息苦しく不自然な音声になります。
【正しいカットの手順】
- 「(スゥッ)えー」の波形を見つける。
- 「(スゥッ)」と「えー」の間にある一瞬の無音(または音量が極端に下がる部分)を探す。
- 「えー」の開始部分から後ろをカットする。
- 残した「(スゥッ)」の後ろに、次の言葉を繋げる。
これにより、「(スゥッ)本日は…」という自然な呼吸の流れを作り出すことができます。
母音の引き伸ばし「あのーーー」の処理
「あのー」という言葉は、「あ・の・お・お・お」というように母音が引き伸ばされます。
この語尾の「お」が、次の言葉の頭に被っている(クロスしている)ことがよくあります。
波形を見ると、フィラーの語尾が完全に消え去る前に、
次の言葉の最初の子音(カ行の「k」やタ行の「t」など)が始まっているのです。
ここを無理に切ると、次の言葉の頭が欠けて「(ホ)ンジツハ」のようになってしまいます。
【対処法】
次の言葉の頭(子音の立ち上がり)を絶対に削らないこと。
フィラーの語尾が少し残ってしまったとしても、次の言葉の頭を活かす位置でカットします。
残ってしまった微かな「おー」という音は、
後述するクロスフェードや音量オートメーションで自然に消していきます。
【プロの技】違和感を完全に消し去る3つの魔法
ここからは、切り貼りした音声を「元からそう喋っていたかのように」馴染ませる、
プロフェッショナルなテクニックを紹介します。
トランジションの基本「クロスフェード」
ゼロクロス点で綺麗に切ったとしても、声のトーンや背景の環境音が急に変わると違和感が残ります。
これを解決するのが「クロスフェード」です。
クロスフェードとは、前のクリップの最後をフェードアウトさせながら、
同時に次のクリップの最初をフェードインさせて、音を滑らかに交差させる技術です。
長さの目安: 音声編集におけるクロスフェードは、
1フレーム〜3フレーム(数ミリ秒〜数十ミリ秒)という非常に短い時間で行うのが基本です。
長すぎると音が二重に重なって「お風呂場」のような響き(フェージング)になってしまいます。
フェードの形状: 「コンスタントパワー(Constant Power)」と呼ばれる、
交差部分の音量が下がらないカーブを使用するのが音声編集の定石です。
「ルームトーン(環境音)」のパッチワーク
プロの音声編集において最も重要な概念が、この「ルームトーン」です。
「えー」を1秒間カットして、前後のクリップをそのままくっつけると、
喋りのテンポが本来よりも1秒分速くなってしまいます。
話し手が考えている「間(ま)」が消滅するため、せっかちで不自然な印象を与えます。
【ルームトーンを使った「間」の復元】
- 録音素材の中から、「誰も喋っていない、衣擦れなどのノイズもない、
純粋な部屋の空気音(サーッという微かなホワイトノイズのような音)」を
2〜3秒ほど探してコピーします。これが「ルームトーン」です。 - 「えー」をカットして詰めた前後のクリップの間に、適切な長さ(例:0.5秒)の隙間を空けます。
- 空けた隙間に、先ほどコピーしたルームトーンを貼り付けます。
- 繋ぎ目の両端に短いクロスフェードをかけます。
これにより、
「『えー』と発声していた時間」を「静かに考えている自然な沈黙の時間」にすり替えることができます。
背景のノイズ(エアコンの音など)も途切れないため、カットしたことが絶対にバレません。
イントネーション(音程)とエネルギーの整合性
これが中級者から上級者への最大の壁です。人間の声にはメロディ(イントネーション)があります。
例えば、
- A:「先週の会議で、」(語尾の音程が上がっている)
- B:「えーっとぉ、」(高い音程から低い音程へ下がる)
- C:「決定した件ですが、」(普通の音程)
ここからBを単にカットしてAとCを繋ぐと、上がった音程が急に普通に戻るため、
「音楽の途中で違う曲に切り替わった」ような違和感が生まれます。
【違和感を緩和するテクニック】
別のテイクから持ってくる: 他の場所で「先週の会議で(語尾が下がっている)」と言っている部分があれば、
そこから言葉を移植(フランケンシュタイン編集)します。
間の調整: 先ほどのルームトーンを使い、AとCの間に少し長めの「間」を作ります。
人間は0.5秒〜1秒ほどの沈黙があると、前の言葉のイントネーションの記憶がリセットされるため、
次に始まる言葉の音程が違っても違和感を感じにくくなります。
実際のワークフローと目視・聴覚の使い分け
最後に、実際の作業を効率的かつ精密に行うためのワークフローをまとめます。
全体を「耳」で聴きながら大まかにカット
まずは等倍速〜1.5倍速で音声を再生し、不要なフィラーワードを見つけたら、
ショートカットキーを使ってざっくりと切り込みを入れていきます。
この段階ではミリ秒単位のズレは気にしません。
波形を「目」で見てゼロクロスとブレスを処理
カットを入れた箇所に戻り、タイムラインを横(時間軸)にも縦(音量軸)にも大きく拡大します。
波形の形を見て、ブレスを残す位置、母音が消え去る位置を見極め、
ゼロクロス点で正確にクリップの端を調整します。
「目を閉じて」仕上がりを確認する
ここが最も重要です。波形を見て編集していると、視覚情報に脳が引っ張られてしまい、
実際には不自然な音でも「波形が綺麗に繋がっているから大丈夫」と錯覚してしまいます。
微調整が終わったら、必ず画面から目をそらすか、目を閉じて、その部分を再生してください。
「今、ここでカットされたな」と耳だけで感じ取れてしまったら、
クロスフェードの長さやルームトーンの長さを再調整します。
まとめ
初心者のうちは、不要な部分を削り取る「彫刻」のような感覚でカットしがちです。
しかし、プロの音声編集は「外科手術」に似ています。
血管(イントネーション)の繋がりを確認し、神経(ブレス)を生かしながら、
不要な腫瘍(フィラーワード)だけを取り除き、
傷跡が残らないように皮膚(ルームトーンとクロスフェード)を綺麗に縫い合わせる。
- ゼロクロス点で切る
- ブレス(息継ぎ)は極力残す
- ルームトーンで「間」をデザインする
- 数ミリ秒のクロスフェードで傷跡を消す
この4つの原則を意識するだけで、あなたの作成する音声・動画のクオリティは劇的に向上します。
最初は時間がかかるかもしれませんが、波形の「顔」がわかるようになれば、
息をするように自然なカットができるようになるはずです。
ぜひ、次回の編集から実践してみてください!

