核心概念
最新の音声ディープフェイク検出技術はベンチマークデータセットでは優れた性能を発揮するものの、現実世界での一般化可能性が低く、説明可能性が不足しているため、実用化には課題が残る。
要約
堅牢な実世界の音声ディープフェイク検出に向けて:説明可能性のギャップを埋める
本論文は、急速に普及するAI生成音声ディープフェイクの脅威に対抗するための、堅牢で説明可能な検出システムの開発に焦点を当てた研究論文である。
本研究は、最新の音声ディープフェイク検出技術における、現実世界での一般化可能性と説明可能性の不足という課題に取り組むことを目的とする。
現状の音声ディープフェイク検出技術の限界を指摘し、従来手法とTransformerベース手法の比較を行う。
Transformerベースの音声ディープフェイク検出器における説明可能性向上のため、アテンションロールアウトなどの手法を導入し、評価を行う。
ASVspoof 5データセットで学習したモデルをFakeAVCelebデータセットでテストすることで、現実世界における一般化可能性を評価するためのベンチマークを提案する。