本論文は、効率的な音声強調のための指導付き異方性拡散モデルを提案している。従来の拡散モデルは、ノイズ成分とクリーンな音声成分を同等に扱うため、計算コストが高くなる問題があった。
提案手法では、ノイズ成分に対してのみ強い拡散を行い、クリーンな音声成分はできるだけ保持するように設計した。具体的には、ノイズ比の推定に基づいて、各時間周波数ビンに異なる分散の Gaussian ノイズを付与する異方性拡散プロセスを導入した。
この異方性ガイダンスにより、ノイズ構造が大幅にぼかされる一方で、クリーンな音声成分の完全性が維持される。これにより、モデルがクリーンな音声成分を識別する際の負担が軽減され、効率的な音声強調が可能となる。
実験の結果、提案手法は従来手法と比べて大幅に少ないパラメータ数(4.5M vs 65M)で、同等以上の性能を達成できることが示された。特に低SNR条件での性能改善が顕著であり、ノイズの多い環境での有効性が確認された。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問