核心概念
本文介紹了一種名為 Stereo-Talker 的新型單次音頻驅動人體視頻合成系統,該系統可以生成具有精確唇形同步、豐富的身體姿態、時間一致的逼真品質以及連續視角控制的 3D 人體說話視頻。
研究目標:
本研究旨在開發一種名為 Stereo-Talker 的新型單次音頻驅動人體視頻合成系統,該系統可以生成具有以下特點的 3D 人體說話視頻:
精確的唇形同步
豐富的身體姿態
時間一致的逼真品質
連續視角控制
方法:
Stereo-Talker 採用兩階段方法:
動作生成階段:
使用預先訓練的 wav2vec 2.0 語音模型從音頻輸入中提取高層語義特徵。
利用大型語言模型 (LLM) 先驗將語音特徵與文本特徵對齊,增強動作品質。
使用擴散模型將豐富的語義特徵解碼為動作表示,生成與音頻一致且穩定的姿態序列。
視頻渲染階段:
使用視角引導的專家混合 (MoE) 模組將相機相關的先驗信息注入生成網絡,提高不同視角下的人體外觀一致性。
使用遮罩引導的 MoE 模組增強人體肢體細節的生成,提高渲染品質。
使用變分自動編碼器 (VAE) 網絡在推理時動態生成人體遮罩,提高輸出視頻的真實感和穩定性。
主要發現:
Stereo-Talker 成功地從音頻輸入和單個參考圖像生成了高保真度的 3D 人體說話視頻。
視角引導的 MoE 模組顯著提高了不同視角下生成視頻的一致性。
遮罩引導的 MoE 模組和遮罩預測模組有效地增強了人體肢體細節的生成,提高了渲染品質和穩定性。
大型語言模型先驗的整合顯著提高了動作生成的品質,使生成的動作更加多樣化和逼真。
意義:
Stereo-Talker 為音頻驅動的人體視頻合成領域帶來了顯著的進步,並在增強現實和虛擬現實等領域具有廣泛的應用前景。
局限性和未來研究方向:
Stereo-Talker 在生成自然穩定的手部動作方面仍面臨挑戰,特別是在手部動作被遮擋的情況下。
由於系統依賴於單個肖像圖像來合成說話視頻,因此生成的視頻可能偶爾會出現不一致的情況。
未來研究方向包括:
開發更強大的手部動作生成模型,以提高手部動作的真實感和穩定性。
探索使用多個視角的參考圖像來合成說話視頻,以提高生成視頻的整體品質和一致性。
統計資料
該研究使用了一個包含 2,203 個不同身份的大型高清音視頻數據集 (HDAV) 進行訓練和評估。
該數據集包含 3D 人體模板參數註釋和詳細的屬性標籤。
訓練渲染網絡的批次大小為 16,在八個 A800 GPU 上運行 3 天。
動作生成網絡的訓練批次大小為 128,在 RTX 3090 GPU 上運行 20 小時。