核心概念
透過語音轉換技術,可以在噪音抑制後有效地修復語音質量,並實現帶寬擴展、去混響和內插等增強效果。
要約
本研究提出了一種整合噪音抑制(NS)和語音轉換(VC)的語音修復框架。首先使用基於ResU-Net的NS模型去除噪音,然後採用基於擴散模型的VC技術來修復被損壞的語音。VC模型利用目標說話者的語音特徵和從去噪語音中提取的內容信息來生成高質量的修復語音。實驗結果表明,這種兩階段的NS+VC框架在客觀指標上優於單一階段的增強模型,雖然在語音可懂度方面略有下降。為了進一步提高可懂度,我們提出了一種內容編碼器自適應方法,在噪音條件下實現更穩健的內容提取。
統計
噪音抑制可以有效提高語音質量,但過度抑噪會損害目標語音,降低語音可懂度和質量。
擴散模型是一種強大的生成模型,可用於高保真的語音生成。
HuBERT是一種自監督的語音表示學習模型,可以在不使用詞彙的情況下提取有意義的特徵。
引用
"噪音抑制(NS)算法在許多情況下都能有效提高語音質量。但是,過度的噪音抑制可能會損害目標語音,儘管去除了噪音,但仍會降低語音可懂度和質量。"
"通過擴散模型的語音轉換階段,可以在目標說話者嵌入和從去噪語音中提取的語音內容信息的條件下,恢復高質量的語音。"