本文提出了一種單階段的基於單目相機的三維語義場景完成框架SGN。SGN採用了密集-稀疏-密集的設計,通過以下方式實現從語義感知種子體素到整個場景的語義傳播:
為了利用深度感知的上下文並動態選擇稀疏種子體素,我們重新設計了稀疏體素提議網絡,直接處理由深度預測生成的點雲,採用粗到細的範式。
通過設計混合引導(稀疏語義和幾何引導)和有效的體素聚合來利用空間幾何線索,我們增強了不同類別之間的特徵分離,並加快了語義傳播的收斂。
我們還設計了多尺度語義傳播模塊,使用各向異性卷積來獲得靈活的感受野,同時減少了計算資源的消耗。
通過這些方法,我們的SGN在保持輕量級的同時擁有更強大的表示能力。在複雜的大規模戶外數據集SemanticKITTI和SSCBench-KITTI-360上的實驗結果表明,我們的SGN在性能和效率方面都優於現有的最先進方法。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania