核心概念
本論文は、音声シーンを別のシーンで操作したフェイクオーディオを検出するためのデータセットとベンチマークを提案する。
要約
本論文は、従来のデータセットでは扱われていない新しい種類のフェイクオーディオ検出に取り組んでいる。従来のデータセットでは、音色、韻律、言語内容、チャンネルノイズなどを変更したフェイクオーディオが主に扱われていた。しかし、本論文では、音声シーンを別のシーンで操作したフェイクオーディオを検出するためのデータセットを提案している。
データセットの構成は以下の通り:
訓練セット、開発セット、既知テストセット、未知テストセットの4つのセットから構成される
既知テストセットと未知テストセットでは、使用するシーンと音声強化手法が異なる
各セットには、本物の音声と操作されたフェイクの音声が含まれる
フェイクの音声は、音声強化技術を使って元の音声のシーンを別のシーンに置き換えることで生成される
また、本論文では、提案したデータセットに対するいくつかのベースラインモデルの評価実験を行っている。その結果、従来のモデルではシーンフェイクオーディオを十分に検出できないことが示された。
統計
元の音声に対するシグナル雑音比(SNR)が-5dB、0dB、5dB、10dB、15dB、20dBの6種類ある
既知テストセットでは、6種類のシーン(空港、バス、公園、広場、ショッピングモール、駅)と4種類の音声強化手法(スペクトル減算、MMSE、ワイナー、FullSubNet)を使用
未知テストセットでは、4種類のシーン(地下鉄、歩行者通り、道路、路面電車)と2種類の音声強化手法(WaveU-Net、GCRN)を使用