核心概念
提出一種基於 GraFormer 的深度學習管線,能夠從單一深度圖像中同時重建物理有效的手部和物體 3D 形狀。
摘要
本文提出了一種名為 ShapeGraFormer 的新方法,用於從單一深度圖像中同時重建手部和物體的 3D 形狀和姿態。該方法包括以下創新模塊:
- PoseNet 和 VoxelNet: 兩個用於手部-物體姿態和形狀估計的 3D-to-3D 體素網路。
- ShapeGraFormer: 一種基於圖卷積網路和多頭注意力層的最新 GraFormer 網路,用於手部-物體形狀重建。
- 基於模板網格的位置嵌入層,用於為手部和物體的每個頂點生成獨特的特徵表示。
- 拓撲一致的物體網格註冊,用於優化物體建模和形狀預測。
該方法在 HO-3D 和 DexYCB 數據集上進行了廣泛的定量和定性評估,並顯示其在手部重建和物體重建方面優於現有方法。特別是,與最新的 THOR-Net 方法相比,我們的方法能夠重建更準確的手部形狀,因為它更好地利用了手部-物體的運動學相關性和深度信息。
統計資料
我們的方法在 HO-3D (v3) 數據集的評估集上實現了 2.00 cm 的平均手部關節位置誤差和 1.94 cm 的平均頂點位置誤差,優於現有最佳方法。
在 DexYCB 數據集的評估集上,我們的手部姿態估計誤差為 1.74 cm,優於基準方法。
我們的物體重建誤差在 HO-3D 數據集的不同物體上介於 5.9 cm 到 11.5 cm 之間。添加refinement GraFormer 可以進一步改善物體重建。