本研究は、音声ディープフェイク検出における操作攻撃への脆弱性を初めて包括的に調査しました。既存の検出手法は、単純な音量調整やフェードなどの操作に対して大きな性能低下を示すことが明らかになりました。
そこで本研究では、対抗的学習に基づく新しい検出モデル「CLAD」を提案しました。CLAD は、操作された音声に対しても安定した特徴量を抽出できるよう学習されており、様々な操作攻撃に対して高いロバスト性を発揮します。さらに、長さ損失関数を導入することで、実音声と合成音声の特徴量をより効果的に分離できるようになっています。
実験の結果、CLAD は既存手法に比べて大幅な性能向上を示しました。例えば、ノイズ注入攻撃に対するFARは0.81%まで低減され、全ての操作攻撃に対してFARが1.63%以下に抑えられました。これにより、CLAD は操作攻撃に対して高いロバスト性を持つ音声ディープフェイク検出手法であることが確認できました。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問