Core Concepts
本文提出了一種新的語音驅動手勢生成方法,通過強調顯著姿態的語義一致性來生成更自然、更逼真的手勢。
研究背景
語音驅動手勢生成旨在合成與輸入語音信號同步的手勢序列,在虛擬化身動畫、人機交互等領域有著廣泛的應用。
研究挑戰
由於語音和手勢之間存在顯著的模態差距,生成與語音內容一致且自然的手勢成為一個重要的挑戰。
本文貢獻
本文提出了一種新的語音驅動手勢生成方法,通過強調顯著姿態的語義一致性來生成更自然、更逼真的手勢。
方法概述
聯合流形空間學習: 學習音頻和身體姿態表示的聯合流形空間,以探索兩種模態之間的語義關聯,並通過一致性損失來確保音頻和姿態特徵在共享的聯合嵌入空間中彼此接近並表示相似的語義信息。
顯著姿態檢測器: 設計一個弱監督的顯著姿態檢測器來識別具有較大運動範圍的姿態,這些姿態通常對應於語音內容的強語義。
獨立的面部和身體合成: 觀察到面部表情依賴於與發音相關的音頻特徵,而身體姿態則與語音內容中的強語義密切相關,因此分別提取專用於面部表情和身體姿態的音頻特徵,並使用獨立的分支合成面部表情和身體姿態,同時通過一個面部-身體特徵對齊模塊來增強面部和身體部位之間的同步性。
實驗結果
在 Speech2Gesture 和 TED Expressive 數據集上進行的大量實驗表明,與現有方法相比,本文提出的方法在生成的手勢的自然度、保真度和同步性方面具有顯著的優勢。
Stats
Oliver、Kubinec、Luo 和 Xing 四位演講者的視頻數量分別為 113、274、72 和 27,總長度約為 25 小時。
將 15 FPS 的視頻分割成 64 幀的片段進行訓練。
姿勢特徵提取器使用隱藏大小為 1024 的單層 GRU。
音頻-姿勢聯合嵌入空間的維度 D 為 512。
顯著姿態檢測器模塊的初始特徵和交互特徵的維度 D1 和 D2 分別設置為 512 和 1024。
top-k 值設置為 16。
訓練和測試的批量大小為 32。
使用 Adam 優化器,學習率設置為 0.0001。
超參數設置為:λr = 10,λreg = 10,λh = 20,λcon = 1,λc = 1。