核心概念
本文提出了一種名為 CityGaussianV2 的新型 3D 場景重建方法,該方法以 2D Gaussian Splatting (2DGS) 為基礎,通過解決其在收斂速度和可擴展性方面的問題,實現了對大規模場景的高效且幾何準確的重建。
論文信息:
Liu, Y., Luo, C., Mao, Z., Peng, J., & Zhang, Z. (2024). CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes. arXiv preprint arXiv:2411.00771v1.
研究目標:
本研究旨在解決現有基於 3D Gaussian Splatting (3DGS) 的三維場景重建方法在大規模場景下遇到的幾何精度和效率方面的挑戰,提出一種高效且能重建出幾何準確的大規模場景的新方法。
方法:
本研究以 2D Gaussian Splatting (2DGS) 為基礎,提出了一種名為 CityGaussianV2 的新型 3D 場景重建方法。該方法主要包含以下改進:
優化的 2DGS 優化策略:
採用深度回歸技術,利用 Depth-Anything V2 預測的深度信息指導幾何優化,加速模型收斂。
提出基於分解梯度的密度化 (DGD) 策略,優先考慮 SSIM 損失的梯度,有效消除模糊的表面元素,進一步提升收斂速度。
引入延伸濾波器,限制過度延伸的高斯元的密度化,解決了 2DGS 在並行訓練過程中高斯元數量爆炸的問題,提升了模型的可擴展性。
高效的並行訓練流程:
採用 CityGaussian 的分塊策略進行並行訓練,並簡化了流程,去除了耗時的後剪枝和蒸餾步驟,顯著降低了訓練成本。
實現了基於貢獻度的剪枝策略,在每個分塊微調過程中移除冗餘的高斯元。
採用球諧函數的 2 階表示,降低了特徵維度,減少了內存和存儲需求。
提出基於貢獻度的向量樹量化方法,實現了對大規模 2DGS 的存儲壓縮,將存儲需求降低了十倍。
標準化的幾何評估協議:
借鑒 Tanks and Temple (TnT) 數據集的評估協議,提出了適用於大型無界場景的標準化評估方法,包括點雲對齊、重採樣、基於可見性的裁剪體積估計和 F1 分數測量等步驟。
提出了基於可見性的裁剪體積估計策略,有效排除了觀測不足的區域,實現了對模型性能更穩定、一致和可靠的評估。
主要結果:
在 GauU-Scene 和 MatrixCity 等多個具有挑戰性的大規模場景數據集上進行的實驗結果表明,CityGaussianV2 在幾何精度和效率方面均優於現有方法。
與 2DGS 相比,CityGaussianV2 能夠更有效地優化大型和模糊的表面元素,收斂速度更快。
與 CityGS 相比,CityGaussianV2 在保持渲染質量相當的同時,顯著提高了幾何精度,並且顯著降低了訓練時間和內存使用量。
消融實驗驗證了 CityGaussianV2 中每個組件的有效性。
結論:
本研究提出了一種針對大規模場景的高效且幾何準確的重建方法 CityGaussianV2。該方法通過解決 2DGS 在收斂速度和可擴展性方面的問題,並採用高效的並行訓練流程和標準化的評估協議,實現了對大規模場景的高效、高保真和幾何準確的重建。
研究意義:
為基於 3DGS 的三維場景重建方法在大規模場景下的應用提供了新的思路和解決方案。
提出的優化策略和並行訓練流程可以推廣到其他基於 3DGS 的方法中。
建立的幾何基準和評估協議為大規模場景重建提供了更可靠的評估標準。
研究局限和未來方向:
本研究主要關注大規模場景的重建,對於包含複雜紋理和材質的場景的重建效果還有待進一步驗證。
未來可以進一步探索更高效的壓縮方法,以進一步降低模型的存儲需求。
統計資料
CityGaussianV2-s 模型將訓練時間縮短了 25%,內存使用量減少了 50% 以上,同時提供了優於 CityGS 的幾何性能和相當的渲染質量。
CityGaussianV2-t 模型甚至可以將訓練時間減半。
使用從 7,000 次迭代得到的結果作為預訓練,總訓練時間從 3 小時減少到 2 小時,模型大小縮小到 300 MB 以下。
基於貢獻度的向量樹量化步驟需要幾分鐘時間進行壓縮,但存儲量減少了 75%。
將分塊策略替換為從 2DGS 的 7,000 次迭代生成的策略後,PSNR 和 F1 分數均顯著下降。