我們提出了TSELM,一種利用離散化語言模型進行目標說話者提取的新方法。TSELM使用多層WavLM作為輸入標記,並結合交叉注意力機制和語言模型來提取目標說話者信息。它將複雜的音頻生成問題轉化為分類任務,並使用可擴展的HiFi-GAN進行音頻重建。實驗結果表明,TSELM在語音質量方面取得了出色的結果,在語音可懂度方面也取得了可比的結果。
本文提出了一種利用註冊語音增強來提高目標說話者提取性能的方法,包括常見的噪音、混響和SpecAugment增強,以及一種新的自估計語音增強方法。實驗結果表明,這些增強方法可以顯著提高模型在乾淨和雜訊環境下的性能,尤其是在跨領域測試中。
WeSep是一個專注於目標說話者提取任務的開源工具包,實現了當前主流模型,並計劃在未來整合更強大的模型。它具有靈活的目標說話者建模、可擴展的數據管理、有效的即時數據模擬、結構化配方和部署支持等特點。
使用基於k-最近鄰居的語音轉換方法生成多樣化的合成干擾說話者,並將其納入課程學習框架,可以顯著提高多種目標說話者提取系統的性能。
本文提出了一種名為WHYV的目標說話者提取模型,能夠在不需要微調的情況下將模型從一種語言轉移到另一種語言。該模型採用了一種門控機制,能夠根據說話者的聲學特徵修改特定頻率,在英語和越語語音分離任務上都取得了出色的表現。
本文提出了一種新的基於文字引導的目標說話者提取範例 LLM-TSE,利用大型語言模型理解自然語言描述,從而從多人混合語音中分離出目標說話者的語音訊號,解決了傳統基於聲紋方法的隱私問題,並提高了系統在不同場景下的靈活性與穩健性。