這篇研究論文探討了說話者分離技術的挑戰,這是一個活躍的研究領域,儘管近年來取得了可喜的成果,但在真實錄音條件下,由於噪音、回聲和其他干擾的存在,這些成果往往會下降。這是因為神經模型通常在合成資料集上進行訓練,這些資料集由混合音訊訊號及其相應的真實資料組成,這些資料集是使用電腦軟體生成的,不能完全代表真實世界錄音場景的複雜性。缺乏用於說話者分離的真實訓練集仍然是一個主要障礙,因為從混合音訊訊號中獲取單獨的聲音並非易事。
為了解決這個問題,本文提出了一種構建真實訓練集的新方法,該資料集包括混合訊號和每個說話者的相應真實資料。研究人員在深度學習模型上評估了這個資料集,並將其與合成資料集進行了比較。結果顯示,在真實混合情況下,說話者分離準確度(根據尺度不變訊號失真比(SI-SDR)衡量)提高了 1.65 dB。
研究人員使用 MATLAB 中的一個函數來構建真實的訓練資料集,該函數可以與音效卡進行通訊,並能夠同時播放和錄製音訊檔案。他們使用了一個高規格的電腦和一個具有特定規格的音效卡,以確保錄製過程沒有延遲,並且沒有出現緩衝區溢位或緩衝區不足的情況。
錄製過程在一個遠離噪音和人員的房間內進行。麥克風和揚聲器之間的距離為 2 公尺,兩個揚聲器之間的距離為 50 公分。研究人員使用了 TIMIT 語音資料庫中的音訊檔案來建立資料集。
實驗結果表明,使用真實訓練資料集訓練的深度學習模型在真實混合情況下,說話者分離準確度比使用合成資料集訓練的模型提高了 1.65 dB。這些發現突出了真實訓練資料集在提高說話者分離模型在真實場景中的效能方面的潛力。
本研究提出了一種構建用於說話者分離的真實訓練資料集的新方法。實驗結果表明,與合成資料集相比,真實訓練資料集可以顯著提高說話者分離模型的效能。這些發現對開發更準確和可靠的說話者分離系統具有重要意義。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor