核心概念
本文提出了一種名為 ES-Gaussian 的新型端到端系統,該系統利用低成本的單線雷射雷達和低空相機,通過識別和校正 3D 模型中缺乏幾何細節的區域,來增強稀疏點雲並實現高質量的 3D 室內場景重建。
摘要
精確且經濟的室內 3D 重建對於機器人導航和互動至關重要。傳統基於光達的建圖雖然精度高,但成本高昂、體積龐大且耗電,且在生成新視圖方面能力有限。基於視覺的建圖雖然經濟高效且能夠捕捉視覺數據,但由於點雲稀疏,難以實現高質量的 3D 重建。為了解決這些問題,本文提出了 ES-Gaussian,這是一個利用低空相機和單線雷射雷達進行高質量 3D 室內重建的端到端系統。該系統採用視覺誤差構建(VEC)技術,通過識別和校正二維誤差圖中幾何細節不足的區域來增強稀疏點雲。此外,本文還介紹了一種由單線雷射雷達引導的新型 3DGS 初始化方法,克服了傳統多視圖設置的局限性,並在資源受限的環境中實現了有效的重建。在我們新的 Dreame-SR 數據集和公開數據集上的大量實驗結果表明,ES-Gaussian 優於現有方法,尤其是在具有挑戰性的場景中。
主要內容
一、引言
近年來,精確且經濟高效的室內 3D 重建對於機器人在複雜的現實環境中有效導航和互動變得至關重要。機器人依靠 3D 地圖來完成場景理解、規劃和避障等基本任務,以及語義建圖和自主決策等高級功能。
傳統基於光達的建圖能夠通過密集點雲採集生成高精度的 3D 地圖。然而,它也存在一些顯著的缺點,例如成本高、重量增加和功耗大。此外,光達傳感器無法直接捕捉顏色和紋理信息,限制了其表示精細視覺細節的能力。相比之下,基於視覺的建圖利用相機,重量更輕、成本更低,並且能夠同時捕捉幾何和視覺數據。然而,僅憑基於視覺的建圖通常缺乏高質量 3D 重建所需的細節,並且無法有效地執行新視圖合成。3D 高斯散射(3DGS)的最新進展為克服這些限制帶來了希望,它通過與基於視覺的建圖相結合,提供了高質量的 3D 重建和新視圖合成。
大多數現有的 3DGS 研究都依賴於高質量的輸入,例如多視圖圖像和密集點雲。然而,這種設置成本高昂且計算量大,限制了它們在資源受限環境中的適用性,例如地面機器人(如機器狗或掃地機器人)遇到的環境,在這些環境中,相機位於低海拔,並且經常面對低紋理表面和小障礙物。這些環境在現實應用中很常見,但在 3DGS 研究中仍未得到充分探索。
為此,我們提出了 ES-Gaussian,這是一個專為低空相機設計的端到端系統,能夠為低空機器人實現自動數據採集和高質量 3D 重建。如圖 1 所示,我們的系統採用單目相機和單線雷射雷達,為精確的室內定位和導航提供了一種可擴展、經濟高效的解決方案,其計算預算低於每秒 1.5 萬億次運算(TOPS)。雖然現有的基於視覺的 3DGS 方法可以從相機輸入重建場景,但它們難以通過局部特徵提取來處理稀疏點雲。為了應對這一挑戰,我們引入了用於 3DGS 補全的視覺誤差構建(VEC),這是一種新穎的技術,它通過識別幾何信息不足的區域並從二維誤差圖生成高精度點雲來增強 3D 重建。這顯著提高了最終 3D 重建的質量和完整性,確保即使在輸入稀疏和質量較低的情況下,我們的系統也能生成準確、詳細的地圖。此外,除了 VEC 帶來的改進之外,我們還利用單線雷射雷達提供的先驗信息來指導 VEC 過程。通過將雷射雷達的點雲納入我們的系統,我們提高了 3D 重建的精度。
傳統數據集通常是從人的高度角度捕捉的。它們不適用於使用低空相機和雷射雷達傳感器的任務的研究和評估。因此,我們引入了 Dreame-SR 數據集,這是一個新穎的室內數據集,專門從低空角度收集,以模擬地面機器人的真實條件。我們在 Dreame-SR 數據集和一個公開數據集上對我們提出的 ES-Gaussian 系統進行了廣泛的評估。實驗結果表明,我們的系統始終優於最先進的方法,尤其是在涉及低紋理或高反射率的挑戰中。
二、相關工作
A. 隱式神經表示
隱式神經表示(INR)已成為計算機視覺和圖形學中用於場景表示的強大技術。可微渲染是 INR 的一個關鍵組成部分,已被證明在提供高質量重建的同時效率很高。在這些方法中,依賴於體渲染的神經輻射場(NeRF)和使用光柵化的 3D 高斯散射(3DGS)取得了重大突破。最先進的 NeRF 變體,如 Instant-NGP、Plenoxels 和 Mip-NeRF360,大大提高了新視圖合成的訓練和推理速度。雖然 NeRF 和 3DGS 都可以生成高質量的新視圖,但 NeRF 受限於複雜的網絡架構、緩慢的訓練速度以及無法支持實時渲染。相比之下,3DGS 可以實現超過 300 FPS 的渲染速度,並提供高分辨率的重建,使其成為我們系統中實時建圖的更實用解決方案。
B. 基於高斯散射的 SLAM
基於 3D 高斯散射的高保真度和實時重建能力,最近的研究已將視覺 SLAM(V-SLAM)與先進的 3D 建圖技術相結合。例如,SplaTAM 利用顯式體積表示來增強 3D 優化和地圖擴展。然而,它嚴重依賴於大規模深度圖進行密集點初始化和準確的尺度估計,這在某些情況下可能受到限制。MonoGS 是一項更新的創新,它採用單個 RGB 傳感器來實現穩健的增量重建。通過結合幾何正則化,MonoGS 有效地解決了單目視覺固有的挑戰,在各種應用中提供了強大的性能。類似地,基於 ORB-SLAM3 的 Photo-SLAM 結合了幾何和光度特徵,以實時重建逼真的地圖。儘管取得了這些進展,但對單個 RGB 或 RGB-D 相機的依賴使得這些方法難以處理複雜的室內環境,在這些環境中,光照和紋理變化會對重建精度產生負面影響。
為了克服這些挑戰,最近的研究整合了受環境光影響較小的雷射雷達傳感器,並專注於多傳感器融合,以提高 3DGS 點初始化和相機姿態估計的精度。例如,Gaussian-LIC 通過集成光達-慣性-相機里程計測量來擴展 Coco-LIC 框架,以實現實時 3D 高斯散射地圖重建。然而,這些方法通常依賴於昂貴的高幀率傳感器,例如 Livox Avia 光達和 MV-CA013-21UC 相機。因此,很難為常用的室內機器人部署大規模系統。
C. 3D 高斯散射補全
密集化對於生成高質量的 3DGS 重建至關重要,而自適應密度控制(ADC)是該過程的核心。ADC 算法通過複製和細分現有高斯函數來運行,在原始點周圍創建更密集的雲。初始高斯分佈的準確性直接影響最終重建的質量。一些研究已經優化了密集化過程。RAIN-GS 引入了自適應邊界擴展分割(ABE-Split)算法,該算法通過基於自適應規則分割高斯函數來增強早期重建,從而在早期階段確保足夠的高斯密度。RD-GS 是另一種密集化方法,它使用顏色誤差校正來驅動密集化,但缺乏結構信息。
與基於現有已知點雲進行密集化的方法不同,我們的方法採用基於八叉樹的點雲增強方法,該方法允許更精確和結構化的補全。這種方法顯著提高了重建精度,尤其是在資源有限的環境中,在這些環境中,精確的點雲初始化對於高質量的 3DGS 表示至關重要。
三、預備知識
在這項工作中,我們採用 3DGS 作為核心表示和渲染技術。我們還利用 SLAM 框架進行高效的 2D SLAM,並利用完全覆蓋路徑規劃(CCPP)進行姿態採集和自主導航。這些構成了我們方法的必要基礎。
A. 3D 高斯散射
3DGS 的一個基本組成部分是 3D 高斯核,它表示空間區域的視覺屬性。每個 3D 高斯函數都由幾個關鍵參數來表徵:其位置、定義核形狀和方向的協方差矩陣、不透明度以及捕捉視圖相關顏色信息的球諧函數係數。在渲染過程中,3D 高斯函數被投影到與觀察者視點相對應的 2D 平面上,生成 2D 高斯分佈。然後,通過使用 α 混合將多個高斯函數的貢獻混合在一起,生成每個視點的最終圖像。
B. 二維地圖構建和姿態採集
我們使用 SLAM,融合單線雷射雷達數據來創建準確的 2D 地圖,並提供精確的機器人姿態估計。這種設置非常適合計算能力有限(1.5 TOPS)的資源受限環境。CCPP 算法確保了對可導航空間 99% 以上的覆蓋率(如圖 2 所示)。
四、基於 VEC 補全的單線雷射雷達引導 3DGS
我們提出的 ES-Gaussian 系統集成了單目相機和單線雷射雷達,以高效地重建高質量的 3D 室內環境。為了應對稀疏數據帶來的挑戰,我們引入了兩個關鍵組件:用於增強 3DGS 補全的視覺誤差構建(VEC)和單線雷射雷達引導的初始化,它們提供了關鍵的先驗信息,以提高重建過程的精度。
A. 用於 3DGS 補全的視覺誤差構建(VEC)
為了應對稀疏和不完整數據帶來的限制,尤其是在捕捉精細細節和小物體方面,我們提出了視覺誤差構建(VEC)技術。與僅僅關注於點雲密集化的傳統方法不同,VEC 針對的是 3D 重建缺乏足夠幾何信息的區域,通過使用額外的高精度點來增強 3D 高斯散射過程,從而增強這些區域。
VEC 概述。 圖 3 展示了 VEC 流程,首先計算高斯模型在特定訓練迭代中渲染的圖像與相應的真實圖像之間的光度誤差。這種光度誤差突出了渲染場景與現實世界之間的差異,尤其是在稀疏點雲無法捕捉到足夠細節的區域。然後將誤差圖像轉換為基於體素的誤差體積,其中每個體素編碼該區域的視覺誤差大小。
這種方法背後的理由是,視覺誤差較大的區域很可能對應於點雲不完整或不準確的區域。因此,通過識別這些高誤差區域,我們可以將點雲增強工作集中在最關鍵的區域,從而提高 3D 重建的整體質量。
神經自適應斷層掃描(NeAT)集成。 為了進一步提高 VEC 過程的準確性,我們集成了神經自適應斷層掃描(NeAT),它對場景中射線積分的非線性強度響應進行建模。這種技術在處理複雜的光照和反射效果方面特別有效,使我們能夠更好地表示精細的細節和小物體。NeAT 通過確保準確建模具有複雜光照或遮擋的區域來幫助完善誤差體積。
誤差圖像的公式如下:
$$
E' = clamp((1+t)*C - t, 0, 1)
$$
其中 t 設置為 0.2,允許系統忽略低誤差區域,並集中精力處理視覺差異較大的區域。
點雲補全。 在點擴展階段,我們採用 512^3 體素網格,其中每個體素的誤差值被歸一化到 [0,1] 範圍內。使用以下公式,根據誤差值將新點添加到點雲中:
$$
p(x, y, z) = \lfloor e(x, y, z) \cdot n_{max} \rfloor
$$
其中 $n_{max}$ 設置為 10,確保誤差值較高的區域接收更多點,從而提高場景的整體細節和準確性。為了保持重建的完整性,我們去除了位於從雷射雷達點雲導出的邊界框之外的大約 5% 的點。
通過這個過程,我們的系統不斷地完善點雲,每 10,000 次迭代生成 30,000 到 40,000 個額外的高精度點。這使得重建質量逐漸提高,尤其是在具有小物體和詳細特徵的複雜室內環境中。
B. 單線雷射雷達引導的 VEC
雖然 VEC 顯著改善了 3DGS 重建,但在稀疏數據環境中初始化過程的挑戰仍然存在。在這種情況下,僅僅依靠單目視覺可能會導致定位不佳和重建不完整。為了克服這個問題,我們集成了單線雷射雷達數據作為先驗信息來指導 VEC 並改進初始化。
單線雷射雷達提供了關鍵的幾何約束,即使在稀疏數據設置中也能捕捉到大型結構和場景邊界。雖然它生成的點較少(每秒約 1,000 到 2,000 個),但它在低紋理環境和不同光照條件下的可靠性使其成為寶貴的先驗信息來源。通過利用通過 SLAM 框架估計的精確相機姿態(誤差始終低於 2 毫米),我們確保了高質量的 3D 重建。
稀疏的雷射雷達點雲通過將 3DGS 過程錨定到真實世界的場景幾何來指導 VEC。這種初始化提高了系統的準確性,尤其是在單目視覺難以處理的複雜環境中。圖 4 展示了在真實環境中由單線雷射雷達生成的初始化點雲示例。
通過將 VEC 與單線雷射雷達提供的幾何先驗信息相結合,我們的方法實現了高效且高質量的 3D 重建,克服了稀疏數據和低空傳感器的限制。
五、實驗
A. 數據集
Dreame-SR 數據集。 我們建立了 Dreame-SR 數據集,據我們所知,這是第一個利用低空相機和單線雷射雷達傳感器的室內數據集。該數據集從低空視角捕捉室內環境,這對於重建高質量的 3DGS 場景至關重要。為了實現我們的目標,我們使用低成本的地面移動機器人從距離地面不到 5 厘米的高度收集數據。這個低空數據集代表了一個獨特且具有挑戰性的設置,這在掃地機器人或機器狗等機器人中很常見,在這些機器人中,相機位於靠近地面的位置,捕捉到大量紋理很少且細節很少的地面區域。該數據集包括各種室內場景,例如臥室、客廳、辦公室和整套房子(軌跡覆蓋多個房間)。每個場景包含大約 10,000 到 15,000 個與 SLAM 姿態同步的連續幀。因此,每個場景的最終驗證數據集範圍從 2,000 到 3,500 幀,這些幀是通過關鍵幀選擇選出的。鑑於相機高度較低,許多圖像包含大量紋理較差的地面,這使得該數據集極具挑戰性。
Ground-Challenge 數據集 [29]。 該數據集還提供了地面周圍的圖像,這些圖像結合了多線雷射雷達傳感器。由於主要稿件的篇幅有限,我們僅展示了 Dreame-SR 數據集上的實驗結果。有關 Ground-Challenge 數據集 [29] 的更多細節和結果,請參見第 VI-C 節。
B. 實現細節
我們的 ES-Gaussian 方法由兩個主要組件組成:在計算能力為 1.5 TOPS 的主板上運行的 LiDAR-SLAM 模塊,以及在配備 128 GB RAM 的雙 NVIDIA RTX 4090 24GB GPU 上運行的基於 Nerfstudio 的建圖模塊。相機設置是手動調整的,不同場景的曝光值高達 28,000,增益設置為 60。這兩個模塊之間的數據傳輸使用 Protobuf 格式的 Foxglove。我們在 Nerfstudio 中使用 Splactfoct-big 可選設置作為 3DGS 參數。所有實驗都使用相同的超參數,以確保跨場景的公平比較。
C. 基線方法和評估指標
基於 SLAM 的重建。 為了評估我們方法的性能,我們將其與幾種與 3DGS 集成的 V-SLAM 方法進行了比較,包括 MonoGS、NeRF-SLAM 和 Photo-SLAM。由於我們的數據集僅包含沒有深度或立體信息的 RGB 圖像,因此所有基線方法都配置為在 RGB 模式下運行。這使我們能夠在可比的條件下評估我們的方法相對於這些方法的性能。
補全增強建圖。 為了評估我們的高斯補全方法的有效性,我們使用最先進的 NeRF 方法(如 Instant-NGP)進行了比較研究。在這些實驗中,我們使用相同的激光距離傳感器(LDS)點雲作為原始 3DGS 和我們方法的初始輸入,以確保公平比較。我們還將我們的方法與 RAIN-GS 進行了比較,RAIN-GS 是一種基於 3DGS 的先進密集化方法。這些比較突出了我們的方法在點雲補全和整體建圖質量方面的優勢。
指標。 我們採用標準評估指標來量化和比較不同方法重建圖像的質量,包括峰值信噪比(PSNR)、結構相似性指數測量(SSIM)和學習感知圖像塊相似性(LPIPS)得分。
D. 分析
基於 SLAM 的重建的性能。 如表 I 所示,在生成新視圖的質量方面,ES-Gaussian 明顯優於 MonoGS、NeRF-SLAM 和 Photo-SLAM。基於 V-SLAM 的方法(如 MonoGS 和 Photo-SLAM)在重建 LivingRoom00 和 Office00 等場景時遇到困難,原因是運動模糊、圖像噪聲以及相鄰幀之間的重疊率等問題。這些方法始終生成 PSNR 值低於 20 dB 的新視圖合成結果,無法滿足逼真場景重建的基本要求。相比之下,我們的方法僅使用低成本的單線激光,就能在簡單和複雜的場景中實現穩定和高質量的重建,證明了其在不同條件下的魯棒性。定性結果見第 VI-B 節。
補全增強建圖的性能。 同樣,表 II 顯示我們的 ES-Gaussian 方法明顯優於其他補全增強建圖方法。具體來說,雖然 Instant-NGP 的性能與其他 3DGS 方法相似,但它在新視圖渲染中產生了明顯的噪聲和漂浮偽影。此外,使用 LDS 數據初始化的 3DGS 限制了點雲的垂直覆蓋範圍,導致缺少高海拔點,並且無法充分擴展點雲,從而導致重建結果模糊。RAIN-GS 建立在 ADC 方法的基礎上,但受限於 ADC 無法捕捉到精細細節,影響了其渲染詳細結構的能力。相比之下,我們利用 VEC 方法的方法在渲染陰影和物體邊緣等微妙細節方面表現出色,從而可以更好地重建複雜的特徵。定性結果見第 VI-B 節。
消融研究。 為了評估我們針對 3DGS 的單線雷射雷達引導 SLAM 初始化的有效性,我們進行了兩項消融研究:1)隨機初始化(Random Init.):我們遵循原始的隨機初始化方法,使用 50,000 個高斯函數。2)SLAM 初始化(SLAM Init.):我們使用從 SLAM 系統生成的稀疏點雲來初始化 3DGS。隨後,所有初始化方法都跟隨我們的 VEC 模塊進行點補全。表 III 和圖 5 中的結果定量和定性地表明,與隨機初始化和 SLAM 初始化相比,我們將單線雷射雷達引導的 SLAM 初始化與 VEC 相結合,顯著提高了 3D 重建精度,尤其是在低空場景中。
六、結論
在本文中,我們提出了 ES-Gaussian,這是一個創新的端到端系統,旨在使用低空單目相機結合單線雷射雷達進行高質量的 3D 室內重建。我們引入了一種新穎的 VEC 技術來應對稀疏點雲帶來的挑戰。VEC 通過從二維誤差圖生成詳細結果來顯著增強 3D 重建過程,從而提高最終 3D 模型的質量和完整性。在真實場景中的大量評估表明,與現有的基於 SLAM 的 GS 方法相比,ES-Gaussian 在重建質量方面表現出色。我們的方法還優於 NeRF 和 3DGS 方法等最先進的技術,突出了其在資源受限環境中的有效性和實用性。
統計資料
ES-Gaussian 系統的計算預算低於每秒 1.5 萬億次運算(TOPS)。
單線雷射雷達每秒生成約 1,000 到 2,000 個點。
SLAM 框架估計的相機姿態誤差始終低於 2 毫米。
點雲補全過程中,每 10,000 次迭代生成 30,000 到 40,000 個額外的高精度點。
Dreame-SR 數據集包含從距離地面不到 5 厘米的高度收集的數據。
隨機初始化方法使用 50,000 個高斯函數。