本文提出了一個用於生成雙人互動中聆聽者連續頭部運動響應的方法。該方法採用了一個基於圖的端到端跨模態模型,僅利用說話者的語音作為輸入,就可以實時生成聆聽者的頭部運動(包括翻滾、俯仰和偏航角)。與之前的工作不同,本文的方法是完全數據驅動的,不需要任何手工標註或將頭部運動簡化為僅有點頭和搖頭。在IEMOCAP數據集上的評估結果顯示,該模型可以以低誤差(平均4.5度)和高幀率(86 fps)生成頭部運動響應,這使其非常適合應用於實際的人機交互系統。此外,該模型還可以在不同說話者之間進行良好的泛化,不需要針對特定說話者進行個性化訓練。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問