核心概念
X-CrossNet 是一種基於複數譜映射的目標說話者提取模型,利用交叉注意力機制融合說話者嵌入信息,能有效地在噪聲和混響環境中分離目標說話者的語音。
研究背景
在現實世界中,語音交互系統所接收的語音信號往往包含多個說話者、噪聲以及混響,這些因素都會對語音識別等任務造成很大挑戰。為了解決這個問題,語音增強模組通常被用作預處理步驟,以提高語音信號的質量。語音分離是語音增強的一種方法,包括多種研究方向,例如盲源分離(BSS)和目標說話者提取(TSE)。
目標說話者提取的挑戰
雖然目標說話者提取技術近年來取得了顯著進展,但由於混合語音信號中噪聲和混響的挑戰,其在現實場景中的應用仍然有限。
X-CrossNet 模型的提出
為了應對噪聲和混響環境下的挑戰,本文提出了一種基於 CrossNet 的新型 TSE 模型,稱為 X-CrossNet。該模型利用 CrossNet 作為骨幹網絡,並引入了說話者嵌入融合結構,以提高模型在噪聲和混響環境中的魯棒性和穩定性。
模型結構
X-CrossNet 模型主要由四個部分組成:語音編碼器、語音解碼器、說話者編碼器和說話者提取器。
語音編碼器:將輸入的混合語音和註冊語音轉換為頻域表示。
說話者編碼器:從註冊語音中提取說話者特徵,用於指導說話者提取模組進行語音分離。
說話者提取器:結合說話者特徵和混合語音特徵,生成分離的語音表示。
語音解碼器:將分離的語音表示轉換回時域,得到提取的目標說話者語音。
實驗結果
在 WSJ0-2mix 和 WHAMR! 數據集上的實驗結果表明,X-CrossNet 在傳統測試集上取得了最先進的性能,同時在噪聲和混響數據集上也保持了顯著的魯棒性和穩定性。
總結
X-CrossNet 是一種有效的目標說話者提取方法,能夠有效應對噪聲和混響環境下的挑戰,具有廣闊的應用前景。
統計資料
X-CrossNet 在 WSJ0-2mix 數據集上的 SDRi 指標達到 20.5,優於其他方法。
X-CrossNet 在 WHAMR! 數據集上的 SDRi 指標達到 14.1,展現出強大的魯棒性和穩定性。