本研究論文介紹了一種名為 CTEFM-VC 的新型零樣本語音轉換 (VC) 框架,旨在將源說話者的音色轉換為任何先前未見過的目標說話者,同時保留原始的語言內容。
現有的零樣本語音轉換方法在實現與真實錄音相當的說話者相似性和自然度方面仍然面臨著巨大挑戰。
CTEFM-VC 框架利用內容感知的音色集成建模和流匹配技術來解決這些挑戰。具體來說,CTEFM-VC 將語音解耦為語言內容和音色表徵,然後利用條件流匹配模型和聲碼器來重建梅爾頻譜圖和波形。為了增強其音色建模能力和生成語音的自然度,研究人員提出了一種內容感知的音色集成建模方法,該方法自適應地集成了不同的說話者驗證嵌入,並通過交叉注意力模塊實現了語言和音色特徵的聯合利用。
實驗結果表明,CTEFM-VC 系統在說話者相似性和自然度方面均優於最先進的 VC 方法,相對改進至少分別為 18.5% 和 7.0%。
CTEFM-VC 是一種有效的零樣本語音轉換框架,它通過內容感知的音色集成建模和流匹配技術顯著提高了語音轉換的質量。
這項研究對語音轉換領域做出了重大貢獻,為語音匿名化、有聲讀物製作等各種實際應用開闢了新的可能性。
未來的研究方向可能包括探索更先進的音色建模技術,以及評估 CTEFM-VC 在其他語言和語音轉換任務中的性能。
翻譯成其他語言
從原文內容
arxiv.org
深入探究