核心概念
本研究提出了FEIM-TTS,一種創新的零樣本語音合成模型,能夠根據面部圖像和情感強度合成情感豐富的語音。FEIM-TTS利用深度學習技術,無需依賴標記數據集,就能解讀面部線索並調整情感細微差異,超越了傳統的語音合成系統。
要約
本研究提出了FEIM-TTS,一種創新的零樣本語音合成模型,能夠根據面部圖像和情感強度合成情感豐富的語音。FEIM-TTS利用深度學習技術,無需依賴標記數據集,就能解讀面部線索並調整情感細微差異,超越了傳統的語音合成系統。
FEIM-TTS的獨特功能是能夠產生高質量、無說話者依賴的語音,使其適合為虛擬角色創造可適應的聲音。此外,FEIM-TTS大大提高了視障人士或難以看清的人的可訪問性。通過將情感細微差異整合到語音合成中,我們的模型為網絡漫畫創造了動態和引人入勝的聽覺體驗,使視障用戶能夠更充分地享受這些敘事。全面的評估證明了它在調節情感和強度方面的熟練程度,推進了情感語音合成和可訪問性。
統計
情感語音合成的性能優於傳統的語音合成系統,MCD值從2.15降低到3.31。
在情感強度控制方面,隨著情感強度的提高,情感識別模型的預測概率也相應提高,證明FEIM-TTS能夠有效調節情感強度。
在面部圖像與合成語音的匹配度測試中,FEIM-TTS的表現優於FACE-TTS,獲得了參與者的一致偏好。
引用
"FEIM-TTS的獨特功能是能夠產生高質量、無說話者依賴的語音,使其適合為虛擬角色創造可適應的聲音。"
"通過將情感細微差異整合到語音合成中,我們的模型為網絡漫畫創造了動態和引人入勝的聽覺體驗,使視障用戶能夠更充分地享受這些敘事。"