Core Concepts
深層学習の進歩により、高度な音声合成アルゴリズムが登場し、音声ディープフェイクが大きな脅威となっている。本サーベイでは、音声アンチスプーフィング検出の最新の進展を包括的に検討し、検出アルゴリズムの構築に向けた課題と将来の研究方向性を提示する。
Abstract
本サーベイでは、音声アンチスプーフィング検出の各コンポーネントを詳細に評価する。特徴抽出手法として、従来の手作業特徴量抽出から深層学習特徴量抽出への移行が見られ、特に自己教師あり学習ベースの特徴量が優れた性能を示す。分類器アーキテクチャでは、CNN、ResNetなどの深層学習モデルが主流となっている。また、データ拡張、損失関数、活性化関数などの最適化手法の有効性も検討する。さらに、部分的なスプーフィング検出、クロスデータセット評価、敵対的攻撃防御などの新興研究トピックについても議論する。本サーベイは、音声アンチスプーフィング検出の現状を把握し、今後の研究の指針を示すものである。
Stats
音声合成アルゴリズムの進歩により、音声ディープフェイクが大きな脅威となっている。
音声アンチスプーフィング検出の性能評価指標として、等誤り率(EER)が広く使用されている。
従来の手作業特徴量抽出手法に加え、深層学習特徴量抽出手法が優れた性能を示している。特に、自己教師あり学習ベースの特徴量が有効である。
分類器アーキテクチャとしては、CNN、ResNetなどの深層学習モデルが主流となっている。
データ拡張、損失関数、活性化関数などの最適化手法が検出性能の向上に寄与する。