核心概念
ImOV3D 提出了一種新穎的框架,透過利用大量 2D 影像資料集生成偽 3D 點雲和標註,解決了開放詞彙 3D 物體偵測中標註 3D 資料稀缺的挑戰,並透過彈性的模態轉換,將 2D 標註資訊整合到 3D 空間,進而縮小訓練和測試資料之間的領域差距,實現僅使用 2D 影像進行開放詞彙點雲 3D 物體偵測的目標。
摘要
ImOV3D: 僅使用 2D 影像學習開放詞彙點雲 3D 物體偵測
研究目標
本研究旨在解決開放詞彙 3D 物體偵測中標註 3D 資料稀缺的挑戰,提出了一種僅使用 2D 影像學習開放詞彙點雲 3D 物體偵測的新方法 ImOV3D。
方法
ImOV3D 框架的核心是彈性的模態轉換,它利用大量的 2D 影像資料集生成偽 3D 點雲和標註,並透過以下步驟實現:
- 點雲提升模組: 利用單目深度估計模型和固定的相機內參,將 2D 影像轉換為偽 3D 點雲,並透過旋轉校正模組確保點雲的水平地面。
- 偽 3D 標註生成器: 利用 2D 資料集中的分割資訊,將 2D 邊界框提升到 3D 空間,生成偽 3D 邊界框,並透過 3D 邊界框過濾模組去除不準確的邊界框。
- 點雲渲染器: 將點雲轉換為渲染圖像,並使用 ControlNet 將渲染圖像轉換為偽圖像,以彌補點雲缺乏細節紋理的缺陷。
- 偽多模態 3D 物體偵測器: 使用兩階段訓練策略,首先使用偽 3D 點雲和標註進行預訓練,然後使用真實點雲和偽標註進行適應性訓練,以最小化 2D 和 3D 資料集之間的領域差距。
主要發現
- ImOV3D 在 SUNRGBD 和 ScanNet 兩個基準資料集上,即使在沒有真實 3D 訓練資料的情況下,也顯著優於現有方法。
- 在僅使用偽 3D 資料進行預訓練的情況下,ImOV3D 在 SUNRGBD 和 ScanNet 上的 mAP@0.25 分別比最佳基準提高了 7.14% 和 6.78%。
- 在使用少量真實 3D 資料進行微調後,ImOV3D 的效能進一步提升,在 SUNRGBD 和 ScanNet 上的 mAP@0.25 分別比最佳基準提高了 2.07% 和 2.13%。
主要結論
ImOV3D 是一種有效的開放詞彙 3D 物體偵測方法,它可以僅使用 2D 影像進行訓練,並在處理真實 3D 掃描時表現出令人印象深刻的偵測結果。
局限性
儘管 ImOV3D 展示了 2D 影像在 OV-3Det 任務中的潛力,尤其是在提出的偽多模態表示方面,但它需要密集的點雲來確保渲染圖像可以幫助提高效能。
未來研究方向
未來將探索更通用的策略,以放寬對密集點雲的限制,並進一步提高 ImOV3D 的效能和泛化能力。
統計資料
在 SUNRGBD 資料集上,使用偽圖像後,mAP@0.25 從 4.38% 增加到 12.61%。
在 ScanNet 資料集上,使用偽圖像後,mAP@0.25 從 4.47% 上升到 12.64%。
在 SUNRGBD 資料集上,僅使用 10% 的適應性資料,ImOV3D 的 mAP@0.25 從 22.53% 下降到 19.24%。
在 ScanNet 資料集上,僅使用 10% 的適應性資料,ImOV3D 的 mAP@0.25 從 21.45% 下降到 18.45%。
在 SUNRGBD 資料集上,ImOV3D 的跨域遷移能力比 OV-3DET 高出 7.1%。
在 ScanNet 資料集上,ImOV3D 的跨域遷移能力比 OV-3DET 高出 7.82%。
在 SUNRGBD 資料集上,使用微調後的 Detic,mAP@0.25 從 19.67% 增加到 22.53%。
在 ScanNet 資料集上,使用微調後的 Detic,mAP@0.25 從 19.25% 上升到 21.45%。