核心概念
本文提出了一種名為 SplatFormer 的新型學習模型,用於改進 3D 高斯球體渲染技術,以解決其在處理訓練視角範圍外的新穎視角時出現的渲染品質下降問題。
摘要
書目資訊
Chen, Y., Mihajlovic, M., Chen, X., Wang, Y., Prokudin, S., & Tang, S. (2024). SplatFormer: Point Transformer for Robust 3D Gaussian Splatting. arXiv preprint arXiv:2411.06390.
研究目標
本研究旨在解決現有新穎視角合成(NVS)方法在處理訓練視角分佈範圍外的新穎視角時,渲染品質顯著下降的問題,特別是在需要從高角度觀察場景的情況下。
方法
- 問題定義: 本文引入了「分佈外新穎視角合成」(OOD-NVS)的概念,用於描述當測試視角與訓練視角分佈顯著不同時,NVS 方法所面臨的挑戰。
- SplatFormer 模型: 提出了一種名為 SplatFormer 的新型學習模型,該模型是一種專為處理高斯球體而設計的點變換器。SplatFormer 接收使用有限訓練視角優化的初始 3DGS 集合作為輸入,並在單個前向傳遞中對其進行優化,從而有效地消除 OOD 測試視角中的潛在偽影。
- 資料集與訓練: 使用 ShapeNet 和 Objaverse 1.0 資料集建立了一個大型訓練資料集,其中包含初始 3DGS 集和對應的多視角圖像對。通過在該資料集上進行訓練,SplatFormer 學習了用於優化 3DGS 的通用先驗,從而有效地消除了 OOD 視角中的偽影,同時保持了 3D 一致性。
主要發現
- 現有的 NVS 方法,包括那些結合了各種正則化技術和資料驅動先驗的方法,都很難有效地泛化到 OOD 視角。
- SplatFormer 在 OOD-NVS 任務上顯著提高了基於 3DGS 的方法的效能,在以物件為中心的場景中取得了顯著的改進,同時也展現了在無界環境中應用的潛力。
- SplatFormer 在跨資料集泛化方面表現良好,能夠將其在合成資料集(如 ShapeNet 和 Objaverse)上學習到的先驗知識遷移到真實世界的物件捕捉中。
主要結論
SplatFormer 為解決 OOD-NVS 問題提供了一種有效的解決方案,並為將變換器整合到逼真的渲染工作流程中提供了進一步的證據。
意義
這項研究對於需要從任意視角渲染逼真 3D 場景的應用(如 AR 和 VR)具有重要意義。
局限性和未來研究方向
- SplatFormer 在重建精細紋理和複雜紋理方面仍面臨挑戰。
- 未來工作可以探索將 SplatFormer 應用於優化 2DGS,以進一步改進 OOD-NVS 結果。
- 未來研究的一個方向是訓練 SplatFormer 以消除無界場景和更廣泛的 OOD 相機設置中的 OOD-NVS 偽影。
統計資料
SplatFormer 在 ShapeNet-OOD 評估集中實現了 27.98 的 PSNR、0.920 的 SSIM 和 0.136 的 LPIPS。
在 Objaverse-OOD 評估集中,SplatFormer 的 PSNR 為 23.06,SSIM 為 0.821,LPIPS 為 0.170。
訓練資料集包含來自 ShapeNet 的 33k 個場景和來自 Objaverse-1.0 的 48k 個場景。
輸入相機軌跡由 Nin = 32 個視角組成。
OOD 測試集包括 Nout = 9 個視角,這些視角均勻分佈在頂部球體上,ϕood ≥ 70°。
所有渲染圖像的分辨率均為 256 × 256。
引述
"We introduce OOD-NVS, a new experimental protocol specifically designed to evaluate the performance of NVS methods when rendering 3D scenes from novel viewing angles that fall outside the distribution of input views."
"We propose SplatFormer, a novel learning-based model that refines flawed 3D Gaussian splats to mitigate artifacts in OOD views."
"SplatFormer is the first approach to apply the point transformer to 3DGS processing, effectively leveraging multi-view information from a dense set of input views and learning a 3D rendering prior to remove artifacts."