Belangrijkste concepten
我們提出了TSELM,一種利用離散化語言模型進行目標說話者提取的新方法。TSELM使用多層WavLM作為輸入標記,並結合交叉注意力機制和語言模型來提取目標說話者信息。它將複雜的音頻生成問題轉化為分類任務,並使用可擴展的HiFi-GAN進行音頻重建。實驗結果表明,TSELM在語音質量方面取得了出色的結果,在語音可懂度方面也取得了可比的結果。
Samenvatting
本文提出了一種新的目標說話者提取方法TSELM,利用離散化語言模型進行處理。主要包括以下步驟:
-
編碼階段:
- 使用預訓練的WavLM模型提取參考語音和混合語音的多層特徵表示,並進行離散化。
- 對於混合語音,先將參考語音拼接到兩側,然後再進行編碼,以幫助模型專注於目標說話者。
-
建模階段:
- 使用注意力機制聚合不同層的離散表示。
- 應用交叉注意力機制將參考語音信息注入到混合語音表示中。
- 使用編碼器-只語言模型生成重建的離散標記,並應用交叉熵損失函數。
-
解碼階段:
- 利用預訓練的可擴展HiFi-GAN直接從離散標記重建音頻,無需額外的解碼器。
實驗結果表明,TSELM在語音質量指標DNSMOS上優於基線模型Spex+,在語音可懂度指標dWER上也取得了可比的結果。我們的進一步分析發現,混合語音的編碼策略對模型性能有重要影響。未來工作將聚焦於開發更好的說話者感知型離散化方法,以進一步提升性能。
Statistieken
混合語音的DNSMOS得分為3.38,BAK得分為3.10,OVL得分為2.65,dWER為79.2%。
離散化目標語音的DNSMOS得分為3.47,BAK得分為4.03,OVL得分為3.19,dWER為11.8%。
TSELM-L模型在Libri2Mix測試集上的DNSMOS得分為3.49,BAK得分為4.04,OVL得分為3.21,dWER為27.5%,speaker相似度為0.895。
TSELM-L模型在WSJ0-2mix測試集上的DNSMOS得分為3.57,BAK得分為4.10,OVL得分為3.31,dWER為17.8%,speaker相似度為0.924。