Core Concepts
生成的と予測的デコーダーを組み合わせた統一システムが、音声強化性能を向上させることが示されました。
Abstract
最近注目されている拡散ベースの生成的音声強化(SE)は、逆拡散が時間がかかることが課題でした。この問題に対処するために、予測SEシステムによって推定された改良された特徴を使用して逆拡散プロセスを初期化する提案がなされました。本論文では、2つのレベルで共同して生成的および予測デコーダーを使用する統一システムを提案しています。エンコーダーは共有エンコードレベルで両方の情報をエンコードし、デコードされた特徴レベルでは、生成的および予測デコーダーによって2つのデコードされた特徴を融合します。具体的には、2つのSEモジュールは初期および最終拡散段階で融合されます:初期融合は逆拡散プロセスを予測SEで初期化して収束性を向上させ、最終融合は2つの補完的なSE出力を組み合わせてSE性能を向上させます。Voice-Bankデータセットで行われた実験では、予測情報の組み込みが高速なデコードと他のスコアベースの拡散SE(StoRMやSGMSE+)と比較して高いPESQスコアにつながることが示されました。
Stats
Voice-Bankデータセットで行われた実験
PESQスコア比較:StoRMやSGMSE+と比較して高いPESQスコア
Quotes
"Predictive information helps the model to reduce speech distortion, noise, and artifacts."
"The proposed system can combine the characteristics of predictive and generative SE and fully use the predictive complex spectrograms even when the number of diffusion steps is small."
"The final fusion step gives a significant PESQ improvement, especially when the number of diffusion steps is small."