本文提出了一個基於條件變分自動編碼器的新穎且高效的框架,能夠合成特定說話者的聲音,並將其轉換為任何所需的目標口音。
本研究探索利用由語音轉換模型生成的合成數據來輔助文本到語音(TTS)模型進行跨說話者語音風格遷移任務。此外,我們還採用了預訓練的方式來緩解說話者信息洩露問題,從而獲得更好的風格表示。
本文介紹了一個基於VITS模型的法語文本到語音合成系統,在2023年Blizzard挑戰賽中取得了平均水平的成績。
VoxHakka是一個針對臺灣客家語的高質量多說話者文字轉語音系統,涵蓋六大主要客家方言,並採用成本效益高的方法從網路上收集和清理語料,以訓練出能夠生成高自然度和準確度的客家語音。
本研究提出了FEIM-TTS,一種創新的零樣本語音合成模型,能夠根據面部圖像和情感強度合成情感豐富的語音。FEIM-TTS利用深度學習技術,無需依賴標記數據集,就能解讀面部線索並調整情感細微差異,超越了傳統的語音合成系統。
本研究提出以 21 小時庫德語語料庫訓練 WaveGlow 聲碼器,大幅提升庫德語語音合成的自然度和流暢性。
本項目旨在開發一個機器學習模型,用於操縱文本到語音(TTS)合成語音的韻律參數,使其更接近人類語音。
本研究提出了一種利用文本音譯生成多種口音語音樣本的新方法,可以有效地為口音轉換系統構建平行語料庫。
提出了一種新的零射程口音生成任務,並建立了一個兩階段的管道系統AccentBox,在口音識別和零射程口音生成方面取得了最先進的性能。
本研究提出了一個多說話人、音素級離散神經編碼器模型,專門用於建模與說話者特徵和語音內容無關的語音韻律信息。