核心概念
本文提出了一種名為 PLGS 的新型高效方法,利用三維高斯散射技術從二維圖像中提升出高質量且一致的三維全景分割結果,並顯著提升了基於 NeRF 方法的訓練和渲染速度。
摘要
本研究提出了一種名為 PLGS 的新型方法,利用三維高斯散射技術 (3DGS) 從帶噪聲的二維分割掩碼生成一致的三維全景分割掩碼,同時保持比基於 NeRF 的方法更高的效率。
研究背景
現有的全景圖像提升方法多採用神經輻射場 (NeRF) 進行,但其訓練和渲染速度不盡人意。
三維高斯散射 (3DGS) 因其快速的訓練和渲染速度而成為一種備受矚目的技術。
然而,與 NeRF 不同,傳統的 3DGS 可能無法滿足基本的平滑性假設,因為它不依賴任何參數化結構(例如 MLP)進行渲染。
因此,傳統的 3DGS 本質上更容易受到噪聲影響,難以從帶噪聲的二維掩碼監督中生成一致的三維全景分割掩碼。
研究方法
結構化全景感知場景表示: 基於 Scaffold-GS 構建結構化全景感知模型,引入平滑性。
穩健的語義錨點初始化:
利用投票機制從機器生成的掩碼中導出可靠的語義點雲,而不是使用 COLMAP 生成的稀疏 RGB 點雲來初始化模型。
在具有連續視點的數據集中,使用局部一致的二維掩碼進一步細化語義點雲,並通過體素化和正則化來初始化 PLGS。
基於一致性增強分割的自訓練:
引入一種有效的自訓練策略,使用偽標籤作為監督。
通過整合機器生成的掩碼和渲染掩碼的分割結果,生成具有更可靠語義標籤的偽標籤。
一致的實例掩碼生成:
提出一種在三維空間中匹配不一致實例掩碼的有效方法,確保生成穩健且統一的實例掩碼。
將二維實例掩碼投影到三維空間,並將其與方向邊界框進行匹配,以生成用於監督的跨視圖一致實例掩碼。
實驗結果
在 HyperSim、Replica 和 ScanNet 數據集上進行的實驗表明,PLGS 在分割質量和訓練/渲染速度方面均優於先前最先進的方法。
與基於 NeRF 的方法相比,PLGS 顯著減少了訓練時間並提高了渲染速度。
主要貢獻
提出了一種名為 PLGS 的新框架,利用 3DGS 將帶噪聲的掩碼從二維提升到三維,從而能夠快速生成跨視圖一致的全景分割掩碼,而無需地面真實標註。
為了減輕噪聲和不一致掩碼監督的負面影響,將三維高斯結構化以引入平滑性,並針對語義和實例分割設計有效的噪聲降低策略,從而增強了方法的穩健性。
在 HyperSim、Replica 和 ScanNet 數據集上進行的大量實驗表明,PLGS 在全景分割質量和訓練/渲染速度方面均優於先前最先進的方法。
統計資料
PLGS 在 Replica 數據集上的 mIoU 比 Panoptic Lifting 提高了 4.0,PSNR 提高了 7.0,PQscene 僅下降了 0.1。
與 Contrastive Lift 相比,PLGS 在 Replica 數據集上的 PQscene 下降了 1.3。
與基線方法相比,PLGS 的 mIoU 平均提高了 5.8,PQscene 平均提高了 10.1。
與 Panoptic Lifting 相比,PLGS 的訓練時間縮短了 10 倍以上,渲染速度提高了 30 倍。