核心概念
XMask3D 透過引入預先訓練的擴散模型的去噪 UNet,生成基於 3D 幾何特徵的開放詞彙遮罩,並利用這些遮罩進行 3D-2D-文字特徵對齊和跨模態特徵融合,從而提升了開放詞彙 3D 語義分割的效能。
摘要
書目資訊
Wang, Z., Wang, Y., Yu, X., Zhou, J., & Lu, J. (2024). XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation. Advances in Neural Information Processing Systems, 38.
研究目標
本研究旨在解決開放詞彙 3D 語義分割問題,即訓練模型識別在訓練過程中未見過的類別。
方法
本研究提出了一種名為 XMask3D 的新型框架,該框架利用預先訓練的文字到圖像擴散模型的去噪 UNet 來進行開放詞彙 3D 語義分割。具體而言,XMask3D 包含三個主要組成部分:3D 幾何特徵提取分支、2D 遮罩生成分支和 3D-2D 特徵融合模組。
- 3D 幾何特徵提取分支採用編碼器-解碼器分割網路,用於從 3D 點雲中提取幾何特徵。
- 2D 遮罩生成分支利用預先訓練的擴散模型的去噪 UNet,以 3D 全局特徵作為條件輸入,生成具有開放詞彙能力的 2D 遮罩。
- 3D-2D 特徵融合模組將 3D 特徵與 2D 遮罩特徵融合,以利用兩種模態的互補資訊。
主要發現
- XMask3D 在多個基準測試和數據集(包括 ScanNet、ScanNet200 和 S3DIS)上均優於現有方法,證明了其在開放詞彙 3D 語義分割方面的有效性。
- 消融研究表明,所提出的每個模組(包括基於 3D 幾何特徵的遮罩生成、遮罩級別正則化和跨模態特徵融合)都對 XMask3D 的效能提升做出了貢獻。
主要結論
XMask3D 是一種新穎且有效的開放詞彙 3D 語義分割方法,它利用了預先訓練的擴散模型的生成能力和跨模態推理能力。
意義
本研究為開放詞彙 3D 語義分割提供了一種新的解決方案,並為未來在該領域的研究提供了有價值的見解。
局限性和未來研究方向
- 由於資源限制,本研究僅評估了 XMask3D 在語義分割方面的效能。未來可以將其擴展到實例和全景感知任務。
- XMask3D 的計算成本較高,未來可以探索更輕量級的 2D 開放詞彙遮罩生成器以降低計算成本。
統計資料
在 ScanNet 數據集上,XMask3D 在新類別分割方面比 PLA 的效能提升了 7.4% 到 20.0%。
在 ScanNet200 數據集上,XMask3D 的效能比 PLA 高出 70.5% 和 72.7%。
在 S3DIS 數據集上,XMask3D 的效能比 PLA 提升了 51.8% 和 33.0%。
引述
"Existing methodologies in open vocabulary 3D semantic segmentation primarily concentrate on establishing a unified feature space encompassing 3D, 2D, and textual modalities."
"In this paper, we propose a more precise and consistent mask-level alignment between 3D features and the 2D-text embedding space, achieved through our proposed cross-modal mask reasoning method."
"We demonstrate the effectiveness of XMask3D on multiple benchmarks of various datasets and show outstanding performance."