本論文では、音声ディープフェイク検出のための新しい手法を提案している。従来の監督学習ベースの手法は、特定の合成手法に特化しており、新しい合成手法に対する一般化性が低いという問題があった。
提案手法では、話者の同一性を前提とし、話者の参照音声セットを用いて検出を行う。具体的には、大規模事前学習モデルを用いて話者の音声特徴を抽出し、参照音声との類似度を計算することで、ディープフェイクを検出する。この手法では、合成音声のサンプルを用いた訓練は不要であり、一般化性に優れる。
実験では、ASVSpoof2019、ASVSpoof2021、InTheWildの各データセットを用いて評価を行った。提案手法は、監督学習ベースの手法と比べて、特にInTheWildデータセットにおいて大幅な性能向上を示した。これは、提案手法の一般化性の高さを示すものである。
特に注目されるのは、BEATs事前学習モデルを用いた場合の優れた性能である。BEATsは、音声の意味的特徴を学習するアーキテクチャを持ち、ディープフェイク検出に適した表現を学習できることが示された。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問