Khái niệm cốt lõi
本文提出了一種名為 HGM 的新型可泛化單視角人體高斯重建框架,透過結合 SMPL-X 模型和擴散先驗,從單一圖像中重建出高品質且視角一致的三維人體模型,並可應用於新的人物。
Tóm tắt
書目資訊
Chen, J., Li, C., Zhang, J., Zhu, L., Huang, B., Chen, H., & Lee, G. H. (2024). Generalizable Human Gaussians from Single-View Image. arXiv preprint arXiv:2406.06050v2.
研究目標
本研究旨在解決從單一視角圖像重建高品質三維人體模型的挑戰,特別是針對未觀察區域的細節外觀和幾何形狀的恢復。
方法
研究人員提出了一種名為「人體高斯模型」(HGM)的新方法,該方法採用一種新穎的「生成-然後-優化」流程,並結合人體先驗和擴散先驗進行指導。具體來說,該方法使用 ControlNet 來優化從粗略預測的人體高斯模型渲染的後視圖圖像,然後使用優化後的圖像以及輸入圖像來重建優化後的人體高斯模型。為了減輕生成不切實際人體姿勢和形狀的可能性,研究人員引入了來自 SMPL-X 模型的人體先驗作為雙分支,使用稀疏卷積和注意力機制將圖像特徵從 SMPL-X 體積傳播到圖像高斯模型。考慮到初始 SMPL-X 估計可能不準確,研究人員使用 HGM 模型逐步優化它。
主要發現
HGM 方法在多個公開數據集上均優於先前的方法,包括新視角合成和表面重建任務。
HGM 方法在跨數據集評估和自然圖像中均表現出強大的泛化能力。
SMPL-X 模型的引入有效地解決了先前方法中常見的腿部彎曲和姿勢不正確的問題。
基於三維高斯模型的方法在渲染速度方面具有顯著優勢,與基於 NeRF 的方法相比,速度更快。
主要結論
HGM 方法提供了一種從單一視角圖像重建高品質三維人體模型的有效解決方案。透過結合人體先驗、擴散先驗和 SMPL-X 優化,該方法能夠生成具有逼真細節和視角一致性的重建結果。
意義
本研究對三維人體重建領域做出了重要貢獻,提出了一種高效且可泛化的解決方案,在虛擬和增強現實、遊戲產業和電影製作等領域具有廣泛的應用前景。
局限性和未來研究方向
目前,HGM 方法在生成高品質手部和臉部方面仍有改進空間,未來可以考慮利用 SMPL-X 模型和區域擴散引導進行進一步優化。
未來研究可以探索將 HGM 方法擴展到多人和動態場景,以滿足更廣泛的應用需求。
Thống kê
我們的模型在 4 個 NVIDIA RTX A6000 上訓練了 20 個小時,批次大小為 4。
我們的輸入圖像大小為 512×512,每個視圖的高斯模型數量為 256×256,每個視圖總共 65,536 個高斯模型。
三維高斯模型渲染速度可達 300 FPS,而基於 NeRF 的方法 SHERF 僅能達到 2 FPS。
Trích dẫn
"Our method reconstructs detailed and geometrically consistent human Gaussian models from single view images, including loosing clothes, challenging pose and in-the-wild images."
"Our approach consistently achieves state-of-the-art performance on various metrics and benchmarks."