利用離散語音標記的聲音轉換器 vec2wav 2.0 的進階
vec2wav 2.0 是一種新型的語音離散標記聲音合成器,可以有效地進行聲音轉換。它利用來自語音自監督模型的離散標記作為源語音的內容特徵,並將聲音轉換視為一個引導式聲音合成任務。為了彌補內容標記中缺失的說話人音色信息,vec2wav 2.0 利用WavLM特徵提供強大的音色相關信息。此外,我們提出了一種新的自適應Snake激活函數,可以更好地將音色信息融入到波形重建過程中。通過這種方式,vec2wav 2.0 可以根據不同的參考提示適當地改變說話人音色。此外,vec2wav 2.0 無需任何監督數據即可有效地進行訓練。實驗結果表明,vec2wav 2.0 在任何到任何的聲音轉換中在音質和說話人相似度方面都優於所有其他基線方法。消融研究也驗證了所提出技術的效果。此外,即使只在單語言語料庫上進行訓練,vec2wav 2.0 也實現了具有競爭力的跨語言聲音轉換。因此,vec2wav 2.0 表明,僅通過語音標記聲音合成器就可以潛在地操縱音色,推動了聲音轉換和語音合成的前沿。