核心概念
本文提出一個基於生成對抗網絡(GAN)的管線,能夠以低成本硬件在即時虛擬實境視訊和直播中生成逼真的面部3D重建。
摘要
本文提出了一個基於生成對抗網絡(GAN)的管線,用於即時虛擬實境視訊和直播中的面部3D重建。
首先,作者使用RGBD相機捕捉面部表情數據集,並提取面部地標圖(FLM)作為輸入。然後,作者設計了一個改進的Pix2Pix GAN架構,包括多尺度判別器和新的損失函數,以生成高質量的面部紋理點雲。
與之前的系統相比,新的管線在保留高頻細節(如鬍鬚)和時間一致性方面有顯著改善。定量評估顯示,新系統的SSIM平均值為0.910,LPIPS平均值為0.082,優於之前的0.851和0.114。
然而,新系統仍存在一些限制,如對夸張表情的重建質量較低,可能會引發"恐怖谷"效應。作者計劃在未來研究中引入3D形態模型(3DMM)等先驗知識,並探索將語音信號作為額外輸入的可能性,以進一步提高重建質量。
統計資料
我們的新系統在SSIM指標上的平均值為0.910,優於之前系統的0.851。
我們的新系統在LPIPS指標上的平均值為0.082,優於之前系統的0.114。
新系統的推理時間在RTX3090 GPU上為3-4毫秒(250-333 FPS),在RTX2080 GPU上為6-7毫秒(143-167 FPS),仍然適合VR應用。
引述
"我們提出了一個基於生成對抗網絡(GAN)的管線,能夠以低成本硬件在即時虛擬實境視訊和直播中生成逼真的面部3D重建。"
"與之前的系統相比,新的管線在保留高頻細節(如鬍鬚)和時間一致性方面有顯著改善。"
"然而,新系統仍存在一些限制,如對夸張表情的重建質量較低,可能會引發'恐怖谷'效應。"