核心概念
提出一種單階段的基於單目相機的三維語義場景完成框架SGN,通過利用空間幾何線索從語義感知的種子體素傳播語義到整個場景。
摘要
本文提出了一種單階段的基於單目相機的三維語義場景完成框架SGN。SGN採用了密集-稀疏-密集的設計,通過以下方式實現從語義感知種子體素到整個場景的語義傳播:
-
為了利用深度感知的上下文並動態選擇稀疏種子體素,我們重新設計了稀疏體素提議網絡,直接處理由深度預測生成的點雲,採用粗到細的範式。
-
通過設計混合引導(稀疏語義和幾何引導)和有效的體素聚合來利用空間幾何線索,我們增強了不同類別之間的特徵分離,並加快了語義傳播的收斂。
-
我們還設計了多尺度語義傳播模塊,使用各向異性卷積來獲得靈活的感受野,同時減少了計算資源的消耗。
通過這些方法,我們的SGN在保持輕量級的同時擁有更強大的表示能力。在複雜的大規模戶外數據集SemanticKITTI和SSCBench-KITTI-360上的實驗結果表明,我們的SGN在性能和效率方面都優於現有的最先進方法。
統計資料
在SemanticKITTI驗證集上,SGN-T的mIoU和IoU分別達到15.32%和46.21%,超過第二名OccFormer 2.19個百分點。
在SemanticKITTI驗證集12.8米範圍內,SGN-T的mIoU達到25.70%,超過LiDAR方法SSCNet 5.68個百分點。
在SSCBench-KITTI-360測試集上,SGN-T的IoU達到52.11%,超過第二名LMSCNet 4.76個百分點。
引述
"我們提出了一種單階段的基於單目相機的三維語義場景完成框架SGN,通過利用空間幾何線索從語義感知的種子體素傳播語義到整個場景。"
"通過設計混合引導和有效的體素聚合,我們增強了不同類別之間的特徵分離,並加快了語義傳播的收斂。"
"我們還設計了多尺度語義傳播模塊,使用各向異性卷積來獲得靈活的感受野,同時減少了計算資源的消耗。"