Core Concepts
対抗的学習を用いることで、音声操作攻撃に対してロバストな音声ディープフェイク検出モデルを実現できる。
Abstract
本研究は、音声ディープフェイク検出における操作攻撃への脆弱性を初めて包括的に調査しました。既存の検出手法は、単純な音量調整やフェードなどの操作に対して大きな性能低下を示すことが明らかになりました。
そこで本研究では、対抗的学習に基づく新しい検出モデル「CLAD」を提案しました。CLAD は、操作された音声に対しても安定した特徴量を抽出できるよう学習されており、様々な操作攻撃に対して高いロバスト性を発揮します。さらに、長さ損失関数を導入することで、実音声と合成音声の特徴量をより効果的に分離できるようになっています。
実験の結果、CLAD は既存手法に比べて大幅な性能向上を示しました。例えば、ノイズ注入攻撃に対するFARは0.81%まで低減され、全ての操作攻撃に対してFARが1.63%以下に抑えられました。これにより、CLAD は操作攻撃に対して高いロバスト性を持つ音声ディープフェイク検出手法であることが確認できました。
Stats
音量調整攻撃により、既存手法のFARが36.69%まで上昇した。
フェード攻撃により、既存手法のFARが31.23%まで上昇した。
ノイズ注入攻撃により、既存手法のFARが51.28%まで上昇した。
Quotes
"既存の検出手法は、単純な音量調整やフェードなどの操作に対して大きな性能低下を示す。"
"CLADは、ノイズ注入攻撃に対するFARを0.81%まで低減し、全ての操作攻撃に対してFARが1.63%以下に抑えられた。"