核心概念
SceneComplete 是一種用於機器人操作的開放世界 3D 場景補全系統,它僅需單一 RGB-D 影像作為輸入,即可建構出完整、已分割的場景 3D 模型,並已在雜亂且具有遮擋的真實場景中得到驗證。
摘要
書目資訊
Agarwal, A., Singh, G., Sen, B., Lozano-P´erez, T., & Kaelbling, L. P. (2024). SceneComplete: Open-World 3D Scene Completion in Complex Real World Environments for Robot Manipulation. arXiv preprint arXiv:2410.23643v1.
研究目標
本研究旨在開發一種名為 SceneComplete 的系統,該系統能夠僅憑單一 RGB-D 影像,在雜亂且具有遮擋的真實場景中,建構出完整、已分割的場景 3D 模型,以利機器人進行操作任務。
方法
SceneComplete 整合了多個大型預先訓練的視覺模型,包含:視覺語言模型(用於識別和描述場景中的物體)、基於文字的影像分割模型(用於定位影像中的物體)、2D 影像修復模型(用於預測物體遮擋部分的外觀)、影像轉 3D 模型(用於生成完整的物體網格)以及視覺描述符和姿態估計模組(用於將個別預測的網格組合成最終場景)。
主要發現
- SceneComplete 能夠在 GraspNet-1B 資料集中,針對雜亂的桌面場景產生高精確度的場景重建,平均每場景的 IoU 分數為 0.39。
- 與僅使用部分點雲凸包進行場景重建的方法相比,SceneComplete 能夠產生更完整、更精確的物體形狀,進而讓 DexNet 反足抓取方法能夠產生更多有效的抓取姿勢,碰撞機率從 49% 降至 26%。
- SceneComplete 所重建的物體模型也能夠支援多指機械手的靈巧抓取規劃,DexGraspNet 在使用 SceneComplete 重建的模型時,能夠產生兩倍於僅使用部分點雲模型時的有效抓取姿勢。
主要結論
SceneComplete 是一種有效的開放世界 3D 場景補全系統,能夠僅憑單一 RGB-D 影像,在雜亂且具有遮擋的真實場景中,建構出完整、已分割的場景 3D 模型,適用於各種機器人操作任務,例如穩定的抓取、無碰撞運動規劃以及多指機械手的靈巧抓取。
研究意義
本研究突顯了在真實開放世界環境中進行機器人操作時,場景理解的重要性,並提出了一種有效的解決方案,可望促進更強健、更靈活的機器人操作系統的發展。
局限與未來研究方向
- SceneComplete 的效能仍受限於各個組成模組的準確度,例如視覺語言模型的物體偵測、影像分割模型的分割品質、影像修復模型的修復效果等。
- 未來研究方向可著重於提升各個模組的效能,例如使用更先進的模型、開發更強健的演算法等。
- 此外,也可以探索將 SceneComplete 應用於更廣泛的機器人操作任務,例如導航、規劃、人機互動等。
統計資料
SceneComplete 在 GraspNet-1B 資料集上的平均每場景 IoU 分數為 0.39。
SceneComplete 的碰撞機率為 26%,而 SceneComplete-NoComp 的碰撞機率為 49%。
DexGraspNet 在使用 SceneComplete 重建的模型時,能夠產生兩倍於僅使用部分點雲模型時的有效抓取姿勢。
引述
"As far as we know, this is the first system to support full-scene reconstruction from a single real-world RBG-D input in cluttered, occluded scenes with no assumptions about object categories."
"We hope that overall advances in scene understanding in realistic manipulation settings will enable much more robust and capable robot manipulation systems."