核心概念
本文提出了一種基於圖像的全新三維感知模型 BIP3D,該模型利用預先訓練的二維視覺基礎模型來增強語義理解,並引入空間增強模塊來改進空間理解,從而實現多視角、多模態特徵融合和端到端的三維感知,在三維物體檢測和視覺定位任務上取得了顯著的性能提升。
摘要
論文概述
本論文介紹了一種名為 BIP3D 的新型圖像中心三維感知模型,該模型旨在解決現有三維感知模型中存在的局限性,特別是那些依賴點雲數據作為主要輸入的模型。論文指出,儘管點雲提供了精確的幾何信息,但其固有的稀疏性、噪聲和數據稀缺性限制了感知性能。
BIP3D 模型利用表達能力強的圖像特徵和顯式三維位置編碼來克服以點為中心的模型的局限性。該模型利用預先訓練的二維視覺基礎模型來增強語義理解,並引入空間增強模塊來改進空間理解。這些模塊共同使 BIP3D 能夠實現多視角、多模態特徵融合和端到端的三維感知。
研究方法
BIP3D 模型採用了 GroundingDINO 作為基礎模型,並對其進行了修改以適應三維感知任務。主要改進包括:
- **相機建模:**顯式地構建相機模型,支持輸入內參和外參,為二維圖像特徵提供三維位置編碼以及三維物體和圖像之間的相對位置信息。
- **多視角融合:**將 DINO 解碼器中的二維可變形注意力修改為三維形式,實現動態多視角特徵融合。
- **多模態融合:**添加深度圖像編碼分支,實現圖像和深度圖像之間的多模態特徵融合,增強三維感知性能。
實驗結果
論文在 EmbodiedScan 基準數據集上進行了廣泛的實驗,該數據集包含來自 ScanNet、3RScan 和 Matterport3D 數據集的數據。實驗結果表明,BIP3D 在三維物體檢測和三維視覺定位任務上均優於現有方法。
在三維物體檢測任務中,BIP3D 在總體數據集上的 AP3D@0.25 比 EmbodiedScan 高 5.69%。此外,由於二維預訓練模型的優勢,BIP3D 表現出優異的類別泛化性能,在尾部類別上達到了 16.03% 的 AP,遠超 EmbodiedScan 的 9.48%。
在三維視覺定位任務中,BIP3D 的總體 AP 超過了 EmbodiedScan 15.25%。此外,BIP3D 表現出更好的魯棒性,在困難樣本上的性能下降僅比簡單樣本低 4.95%,而 EmbodiedScan 的性能下降則為 8.67%。
結論與展望
論文提出了一種基於圖像的三維感知模型 BIP3D,該模型克服了點雲的局限性,並有效地利用了二維基礎模型的能力,顯著提高了三維感知性能。BIP3D 支持多視角圖像、深度圖像和文本作為輸入,使其能夠執行三維物體檢測和三維視覺定位。
未來的工作包括:
- 進一步優化網絡架構和訓練方案,以實現更好的感知性能。
- 將 BIP3D 應用於動態場景,實現聯合檢測和跟踪。
- 納入更多感知任務,例如實例分割、佔用和抓取姿態估計。
- 在 BIP3D 的集成網絡框架下,可以改進解碼器以支持更高級別的任務,例如視覺問答和規劃。
統計資料
BIP3D 在 EmbodiedScan 數據集上的 AP3D@0.25 比 EmbodiedScan 高 5.69%。
BIP3D 在尾部類別上達到了 16.03% 的 AP,遠超 EmbodiedScan 的 9.48%。
BIP3D 的總體 AP 超過了 EmbodiedScan 15.25%。
BIP3D 在困難樣本上的性能下降僅比簡單樣本低 4.95%,而 EmbodiedScan 的性能下降則為 8.67%。
引述
"In this work, we introduce a novel image-centric 3D perception model, BIP3D, which leverages expressive image features with explicit 3D position encoding to overcome the limitations of point-centric methods."
"Our model is based on the 2D model, GroundingDINO, sharing a similar overall network architecture and initialized with its model weights, thereby inheriting the strong generalization capabilities of GroundingDINO."
"In our experiments, BIP3D outperforms current state-of-the-art results on the EmbodiedScan benchmark, achieving improvements of 5.69% in the 3D detection task and 15.25% in the 3D visual grounding task."