本研究では、最新の零細TTS技術を用いて生成された音声データを含む大規模なクロスドメインデータセット「CD-ADD」を構築した。このデータセットを用いて、様々な攻撃手法に対する音声ディープフェイク検出モデルの性能を評価した。
まず、TTS技術間の性能差を分析するため、単一のTTS技術で学習したモデルを他のTTS技術で生成された音声に適用する交差評価を行った。その結果、TTS技術間で大きな性能差があることが明らかになった。そのため、最も検出が困難なTTS技術であるSeamless Expressiveを評価用データとして選定した。
次に、攻撃手法の影響を分析した。ノイズ付加、圧縮、ノイズ除去などの攻撃手法を導入することで、モデルの汎化性能が大幅に向上した。特に、LPFやMP3圧縮、SepFormerによるノイズ除去は、検出精度を改善する効果があった。一方で、ニューラルコーデックによる圧縮は大きな影響を及ぼし、検出精度が大幅に低下した。
さらに、少量の目的ドメインデータでの学習を行う実験を行った。その結果、わずか1分間の目的ドメインデータでも、大幅な精度向上が確認できた。これは、実世界での活用において重要な知見である。
以上の結果から、提案するCD-ADDデータセットと、攻撃手法の導入や少量データでの学習による手法は、実用的な音声ディープフェイク検出システムの構築に寄与すると考えられる。一方で、ニューラルコーデックによる圧縮への対策が今後の課題として残されている。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Yuang Li,Min... às arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.04904.pdfPerguntas Mais Profundas