Alapfogalmak
本文提出了一種新的基於文字引導的目標說話者提取範例 LLM-TSE,利用大型語言模型理解自然語言描述,從而從多人混合語音中分離出目標說話者的語音訊號,解決了傳統基於聲紋方法的隱私問題,並提高了系統在不同場景下的靈活性與穩健性。
本文介紹了一種名為 LLM-TSE 的新型文字引導目標說話者提取範例,該範例利用大型語言模型(LLM)來理解自然語言描述,從而從多人混合語音中分離出目標說話者的語音訊號。
傳統的目標說話者提取(TSE)方法主要依賴於聲紋,但這種方法存在隱私問題,並且在註冊樣本的品質、可用性以及說話者內部變異性方面也面臨挑戰。