本文提出了一個整合的框架,結合對偶學習、模仿攻擊模擬和元學習,以增強自動說話人驗證系統對聲道失配、模仿攻擊和域失配的抵禦能力。
首先,作者介紹了一個新的測試數據集CNComplex,該數據集同時包含聲道失配和模仿攻擊,用於評估現有自動說話人驗證系統在面對多重威脅時的脆弱性。
接下來,作者提出了一個新的模型架構,包括一個非對稱的雙路特徵提取器、一個說話人分類器、一個模仿檢測分類器和一個SASV二元分類器。這個模型通過多任務學習的方式,同時處理自動說話人驗證、反模仿和具有模仿意識的自動說話人驗證任務。
為了增強模型的魯棒性,作者將對偶學習、模仿攻擊模擬和元學習整合到了訓練過程中。其中,對偶學習模擬聲道失配,模仿攻擊模擬模仿攻擊,元學習模擬域失配。
實驗結果表明,與傳統的自動說話人驗證系統相比,提出的模型在聲道失配、模仿攻擊和域失配等多種場景下都表現出顯著的性能改善,展現了在實際應用中的潛力。
翻譯成其他語言
從原文內容
arxiv.org
深入探究