本文提出了一種改進的課程學習方法,用於提高目標說話者提取(TSE)的性能。TSE旨在從複雜的語音環境中分離出個別說話者的聲音。以往的研究表明,當目標說話者和干擾說話者的特徵相似時,TSE系統的效果會受到影響。
為了解決這一問題,本文利用基於k-最近鄰居的語音轉換方法,生成多樣化的合成干擾說話者,並將其納入課程學習的框架中。具體來說:
在課程學習的第一階段,模型首先在目標說話者和干擾說話者相似度較低的樣本上進行訓練,以建立基本的說話者特徵識別能力。
在第二階段,模型逐步接觸到目標和干擾說話者相似度較高的樣本。
在第三階段,模型同時接受真實和合成干擾說話者的訓練樣本。
實驗結果表明,使用合成干擾說話者可以顯著提高多種TSE系統的性能。此外,分析還發現,在訓練過程中需要同時使用真實和合成干擾說話者,而單獨使用合成干擾說話者會導致性能下降。
本文的貢獻包括:1)提出了一種利用語音轉換生成合成干擾說話者的方法,以增加訓練數據的多樣性;2)將合成干擾說話者整合到課程學習框架中,進一步提高TSE系統的性能。這些發現為未來的TSE研究提供了有價值的啟示。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yun Liu, Xue... at arxiv.org 10-02-2024
https://arxiv.org/pdf/2410.00811.pdfDeeper Inquiries