Centrala begrepp
本文提出了一種基於轉換器的語音去削波模型,能夠有效地恢復在各種輸入信噪比下被削波的信號。該模型結合了複雜頻譜和可學習時間特徵,在高低信噪比輸入上都表現出色,並能保留未被削波的語音部分,避免了僅使用頻譜信息時常見的退化。
Statistik
在VoiceBank-DEMAND數據集上,對於1 dB信噪比輸入,該模型的PESQ得分超過3.26,顯著優於最高基線得分2.92。
在15 dB信噪比輸入下,該模型的PESQ得分達到4.44,優於所有基線模型。
在無削波輸入下,該模型的PESQ得分達到4.50,達到最高值。
在DNS數據集上,該模型在PESQ、DNSMOS和SDRc指標上均優於其他模型,展現了其在不同數據集上的強大適應性。
Citat
"該模型結合了複雜頻譜和可學習時間特徵作為輸入,以克服僅使用頻譜信息的局限性。"
"該模型還能保留未被削波的語音部分,避免了僅使用頻譜信息時常見的退化。"