核心概念
本文提出了一種新的多物件 3D 推理分割任務,旨在根據使用者提問,對複雜 3D 場景中的多個物件進行分割,並生成包含 3D 空間關係的文字解釋。
摘要
論文資訊
標題:多物件 3D 推理分割與複雜場景
作者:Xueying Jiang, Lewei Lu, Ling Shao, Shijian Lu
發表於:arXiv
研究目標
本研究旨在解決現有 3D 場景理解方法缺乏推理能力和文字解釋的問題,提出了一種新的多物件 3D 推理分割任務,並創建了一個大規模、高質量的基準資料集 ReasonSeg3D。
方法
- 提出一種新的多物件 3D 推理分割任務,該任務可以根據輸入的 3D 場景和使用者提問,生成包含解釋和物件間 3D 空間關係的文字答案,以及對應的 3D 分割遮罩。
- 創建了一個名為 ReasonSeg3D 的大規模、高質量的基準資料集,該資料集包含豐富的 3D 空間關係資訊,可用於有效評估多物件 3D 推理分割方法。
- 設計了一種簡單有效的技術 MORE3D,用於實現多物件 3D 推理分割和文字解釋。MORE3D 從大型語言模型中學習物件特定的點雲嵌入,並結合 3D 點雲解碼器生成分割遮罩和文字解釋。
主要發現
- 與現有的 3D 分割方法相比,MORE3D 在 ReasonSeg3D 資料集上取得了顯著的效能提升,證明了其在理解使用者意圖和準確分割多個物件方面的優勢。
- 消融實驗證明了 MORE3D 中各個模組的有效性,包括物件特定的點雲嵌入提取方法、文字答案損失函數、遮罩損失函數、點雲解碼操作和預測方法。
結論
本研究提出了一種新的多物件 3D 推理分割任務,並創建了一個新的基準資料集 ReasonSeg3D。實驗結果表明,所提出的 MORE3D 方法能夠有效地處理多物件 3D 推理分割任務,並生成包含 3D 空間關係的文字解釋。
未來研究方向
- 將該方法推廣到更多樣化和更具挑戰性的 3D 環境中,例如室外場景。
- 研究如何利用更強大的大型語言模型來進一步提高 3D 推理分割的效能。
統計資料
ReasonSeg3D 資料集包含 1513 個場景和 20,113 個資料樣本,點雲資料來自 ScanNetv2。
資料集中包含 20 種不同的物件類別用於分割。
平均每個場景有 13.3 個問題。
MORE3D 在 ReasonSeg3D 驗證集上的 cIoU 和 gIoU 分別為 30.19 和 32.01。