本論文は、合成音声検出(SSD)の性能をノイズ環境下で向上させるための手法を提案している。
まず、クリーンな教師モデルとノイズのある学習者モデルを並列に設計する。学習者モデルの前処理として、まず音声強調を行い、ノイズを低減する。その後、相互作用的な特徴融合モジュールを提案し、強調された特徴とノイズのある特徴を適応的に組み合わせることで、ノイズの影響を軽減しつつ、クリーンな教師モデルの特徴分布との整合性を保つ。
さらに、ティーチャー-スチューデントのパラダイムを導入し、学習者モデルが教師モデルの判断基準を学習するようにする。これにより、ノイズのある入力でも教師モデルと同様の予測を行うことができる。
最後に、双方のモデルを同時に最適化する joint training を行うことで、相互作用的な特徴融合モジュールがSSD課題に有益な特徴を生成するようになる。
実験の結果、提案手法は様々なノイズ環境下で優れた性能を示し、クリーンな環境でも高い精度を維持することができる。また、異なるデータセットでの評価でも優れた汎化性を示している。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Cunhang Fan,... ב- arxiv.org 04-17-2024
https://arxiv.org/pdf/2310.08869.pdfשאלות מעמיקות