基於人工智慧的說話者分離系統在真實錄音條件下表現不佳，因為它們通常在合成資料集上進行訓練，而這些資料集不能完全代表真實世界的複雜性。本研究提出了一種構建真實訓練資料集的新方法，該資料集包括混合訊號和每個說話者的相應真實資料。將此資料集在深度學習模型上進行評估，並與合成資料集進行比較，結果顯示，在真實混合情況下，說話者分離準確度（根據尺度不變訊號失真比（SI-SDR）衡量）提高了 1.65 dB。這些發現突出了真實訓練資料集在提高說話者分離模型在真實場景中的效能方面的潛力。


coremsg

開發有效的訓練資料集以增強基於人工智慧的說話者分離系統的效能