本研究提出了FEIM-TTS,一種創新的零樣本語音合成模型,能夠根據面部圖像和情感強度合成情感豐富的語音。FEIM-TTS利用深度學習技術,無需依賴標記數據集,就能解讀面部線索並調整情感細微差異,超越了傳統的語音合成系統。
FEIM-TTS的獨特功能是能夠產生高質量、無說話者依賴的語音,使其適合為虛擬角色創造可適應的聲音。此外,FEIM-TTS大大提高了視障人士或難以看清的人的可訪問性。通過將情感細微差異整合到語音合成中,我們的模型為網絡漫畫創造了動態和引人入勝的聽覺體驗,使視障用戶能夠更充分地享受這些敘事。全面的評估證明了它在調節情感和強度方面的熟練程度,推進了情感語音合成和可訪問性。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы