本論文介紹了一種名為 HiCoM 的新型框架,旨在增強從多視角影片串流線上重建動態場景的效率和穩定性。HiCoM 框架首先通過擾動平滑策略學習緊湊且穩健的初始 3DGS 表示,確保為後續幀學習奠定穩定基礎。然後,它利用三維高斯樣條函數固有的非均勻分佈和局部一致性來實現分層式一致性運動機制。具體來說,將場景劃分為區域,並認識到由於高斯分佈的不均勻性,實際上只有少數區域包含高斯基元。它明確地模擬了這些非空區域內的運動,允許同一區域中的高斯樣條函數共享相同的運動模式。這些區域可以進一步劃分為更小的區域,從而使每個高斯樣條函數的運動由其所在所有級別區域的組合運動決定。這種分層式一致性運動機制可以從粗略到精細地捕捉運動,並且只需要最少的參數集,有利於快速收斂。因此,區域內部和區域之間的固有結構和一致性支持跨幀快速學習場景變化。此外,還引入了額外的高斯樣條函數,以更好地適應場景內容的重大更新。這些新的高斯樣條函數被仔細地整合到初始 3DGS 表示中,以確保與不斷發展的場景保持持續一致性。為了保持 3DGS 的緊湊性,在處理後續幀之前,將刪除相同數量的對場景表示影響最小的低不透明度高斯樣條函數。在兩個廣泛使用的數據集上進行的大量實驗表明,與最先進的方法相比,該框架將學習效率提高了約 20%,並將數據存儲減少了 85%,在實現具有競爭力的自由視點影片合成質量的同時,還具有更高的穩健性和穩定性。此外,通過同時並行學習多個幀,HiCoM 將平均訓練時間縮短至每幀不到 2 秒,而性能下降可忽略不計,大大提高了現實世界的適用性和響應能力。
為了應對動態場景捕捉中常見的有限相機數量問題,HiCoM 採用擾動平滑策略來構建初始 3DGS 表示。具體來說,在訓練過程中,向三維高斯樣條函數的位置屬性添加小的 Gaussian 噪聲,從而防止模型過度擬合有限的訓練視圖。這種方法還有助於減少高斯樣條函數的數量,從而加快後續幀學習的收斂速度。
HiCoM 沒有使用神經網路隱式地預測每個三維高斯樣條函數的運動,而是通過分層式一致性運動機制明確地對運動場進行建模。首先,將場景劃分為大小相同的區域,並根據每個高斯樣條函數的中心位置確定其主要所在的區域。對於包含高斯樣條函數的區域,為其分配平移和旋轉屬性,這些屬性由區域內的高斯樣條函數共享,確保局部一致性。為了適應較小區域內可能存在的細微運動差異,進一步對區域進行劃分,並為這些較小的區域建立不同的運動參數。因此,每個高斯樣條函數的運動由其所屬的多個層級區域的運動累積決定。這種分層式一致性運動機制允許從粗略到精細地捕捉高斯樣條函數的運動,確保更詳細、更準確地表示動態變化,並減少需要優化的參數數量,從而加快學習速度。
為了捕捉運動機制可能遺漏的場景變化細節或重大場景內容更新,HiCoM 採用持續優化策略。在運動學習過程中,一些區域會累積顯著的梯度,表明學習到的場景與實際場景之間存在較大差異。在這些梯度累積超過預設閾值的區域中,克隆高斯樣條函數,並對其進行進一步優化和密度控制,以更好地與最新場景保持一致。為了保持 3DGS 表示的緊湊性和效率,在學習下一幀之前,會選擇性地刪除相同數量的對整體視覺完整性影響最小的低不透明度高斯樣條函數。這種持續優化策略確保了隨著場景的發展,3DGS 表示能夠全面且自適應地進行調整。
為了進一步提高效率和響應速度,HiCoM 採用並行訓練策略,同時學習多個幀。由於連續幀之間的差異通常很小,因此選擇幀 t 的 3DGS 作為參考,同時學習幀 {t + 1, ..., t + k}。處理完這些幀後,幀 t + k 的 3DGS 成為學習下 k 幀的新參考。這種並行訓練策略顯著減少了每幀的平均處理時間,同時保持了幾乎相同的質量。
實驗結果表明,與最先進的方法相比,HiCoM 將訓練效率提高了約 20%,並將數據存儲減少了 85%。此外,並行訓練顯著減少了處理時間,而性能下降可忽略不計,從而提高了系統在現實世界應用中的效率和響應能力。
HiCoM 框架通過擾動平滑策略、分層式一致性運動機制和持續優化策略,顯著提升了基於三維高斯樣條函數的動態場景線上重建效率和穩定性。實驗結果驗證了 HiCoM 的有效性和效率,使其成為動態場景線上重建領域的一個有希望的解決方案。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Qiankun Gao,... a las arxiv.org 11-13-2024
https://arxiv.org/pdf/2411.07541.pdfConsultas más profundas