本文探討了人類情感表達的動態性、複雜性和流暢性,特別關注在語言交流過程中情感強度的平滑過渡。然而,之前的語音驅動說話頭生成方法大多忽略了這種強度波動的建模,導致生成的情感表達較為靜態。
為解決這一問題,本文提出了一種新的說話頭生成框架。首先,我們開發了一種情感強度無關的標註方法,通過分析面部關鍵點的變化來量化每一幀的情感強度。然後,我們設計了一個基於音頻的強度預測器,能夠根據說話語調預測這些動態的強度波動。
此外,我們提出了一種重組情感潛在空間的方法,使情感類型編碼在潛在方向,而情感強度則反映在潛在範數中。這種設計使得情感類型和強度之間能夠實現平滑過渡,從而提高了生成的表現力和真實性。
通過大量實驗和分析,我們驗證了所提方法在準確捕捉和再現情感強度波動方面的有效性,大幅提升了生成說話頭的表現力和真實性。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询