本文提出了一個基於生成對抗網絡(GAN)的管線,用於即時虛擬實境視訊和直播中的面部3D重建。
首先,作者使用RGBD相機捕捉面部表情數據集,並提取面部地標圖(FLM)作為輸入。然後,作者設計了一個改進的Pix2Pix GAN架構,包括多尺度判別器和新的損失函數,以生成高質量的面部紋理點雲。
與之前的系統相比,新的管線在保留高頻細節(如鬍鬚)和時間一致性方面有顯著改善。定量評估顯示,新系統的SSIM平均值為0.910,LPIPS平均值為0.082,優於之前的0.851和0.114。
然而,新系統仍存在一些限制,如對夸張表情的重建質量較低,可能會引發"恐怖谷"效應。作者計劃在未來研究中引入3D形態模型(3DMM)等先驗知識,並探索將語音信號作為額外輸入的可能性,以進一步提高重建質量。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania