本文探討了人類情感表達的動態性、複雜性和流暢性,特別關注在語言交流過程中情感強度的平滑過渡。然而,之前的語音驅動說話頭生成方法大多忽略了這種強度波動的建模,導致生成的情感表達較為靜態。
為解決這一問題,本文提出了一種新的說話頭生成框架。首先,我們開發了一種情感強度無關的標註方法,通過分析面部關鍵點的變化來量化每一幀的情感強度。然後,我們設計了一個基於音頻的強度預測器,能夠根據說話語調預測這些動態的強度波動。
此外,我們提出了一種重組情感潛在空間的方法,使情感類型編碼在潛在方向,而情感強度則反映在潛在範數中。這種設計使得情感類型和強度之間能夠實現平滑過渡,從而提高了生成的表現力和真實性。
通過大量實驗和分析,我們驗證了所提方法在準確捕捉和再現情感強度波動方面的有效性,大幅提升了生成說話頭的表現力和真實性。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Jingyi Xu, H... о arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19501.pdfГлибші Запити