核心概念
FT2TF 模型是一種基於第一人稱敘述文本的說話人臉生成模型,它僅依靠視覺和文本信息,無需音頻、關鍵點或姿態等額外輸入,即可生成高質量、表情自然且唇語同步的說話人臉視頻。
摘要
論文概述
本論文介紹了一種名為 FT2TF 的新型單階段端到端說話人臉生成模型,該模型以第一人稱敘述文本為驅動,無需依賴音頻信息。與傳統的音頻驅動方法相比,FT2TF 在數據存儲、傳輸和環境要求方面具有顯著優勢。
研究背景
說話人臉生成技術在元宇宙和人工智能的推動下發展迅速,廣泛應用於增強現實、虛擬現實、遊戲、視頻會議等領域。傳統方法主要依賴音頻輸入,但存在音頻存儲和處理資源密集的缺點。文本驅動方法具有數據存儲和傳輸方面的優勢,但目前的研究主要集中在使用第三人稱文本描述或兩階段架構(文本轉語音和語音轉人臉)上。
FT2TF 模型架構
FT2TF 模型採用單階段端到端架構,主要由以下模塊組成:
- 多模態編碼器: 包括視覺編碼器、全局情感文本編碼器和語義文本編碼器,分別用於提取視覺特徵、全局情感語氣和語義信息。
- 多尺度交叉注意力模塊: 整合全局和局部交叉注意力模塊,將視覺和文本特徵對齊到同一分佈,實現全面的視覺-文本融合。
- 視覺解碼器: 將融合後的視覺-文本表示轉換為連續的說話人臉幀。
實驗結果
在 LRS2 和 LRS3 數據集上的實驗結果表明,FT2TF 在多項評估指標上均優於現有的音頻驅動和文本驅動方法,包括峰值信噪比 (PSNR)、結構相似性 (SSIM)、學習感知圖像塊相似度 (LPIPS)、Fréchet 初始距離 (FID)、餘弦相似度 (CSIM) 和唇部關鍵點距離 (LipLMD)。
主要貢獻
- 單階段端到端連續幀說話人臉生成: FT2TF 提出了一種單階段端到端架構,通過整合視覺和文本輸入生成逼真的連續幀說話人臉。
- 高效的文本驅動說話人臉生成: FT2TF 在推理過程中僅使用視覺和文本信息,減少了可訓練參數的數量,同時提高了人臉自然度、唇語同步性和面部表情細節。
- 達到最先進的性能: 在 LRS2 和 LRS3 數據集上的實驗結果表明,FT2TF 在定量和定性評估方面均優於現有方法,達到了最先進的水平。
總結
FT2TF 模型為基於第一人稱敘述文本的說話人臉生成提供了一種有效且高效的解決方案,為未來的研究提供了有價值的參考。
統計資料
在 LRS2 數據集上,FT2TF 的 PSNR 值比現有的最佳文本+視覺方法 TTFS 提高了 9.6%,SSIM 值提高了 4.9%,LPIPS 值降低了 66.5%。
在 LRS3 數據集上,FT2TF 的 PSNR 值比 TTFS 提高了 1.88%,SSIM 值提高了 5.78%,LPIPS 值降低了 58.74%。
與僅學習唇部周圍特徵的最佳方法(IP LAP、Wav2Lip)相比,FT2TF 在使用相似數量可訓練參數的情況下,實現了更高的 SSIM 分數。
與其他最先進的人臉生成模型相比,FT2TF 在可訓練參數和性能方面均具有顯著優勢,平均性能提升 122.88%,平均參數減少 68.94%。
引述
"Compared to audio-driven methods, text-driven approaches offer unparalleled advantages, notably in terms of: Data Storage and Data Transmission."
"Our objective is to revolutionize the synthesis of coherent and natural talking face videos through first-person statements, encompassing well-synchronized lip movements, accurate cheek actions, detailed textures, and overall facial expressions."
"FT2TF consistently outperforms lip-specific methods, even those using ground truth for the remaining parts of the face, further validating its superior performance."