核心概念
我們提出了一種靈活的模型架構,能夠處理單視角和多視角輸入,並通過有效的數據增強技術和離線神經平滑後處理方法,顯著提高了在不同數據集上的手部追蹤性能。
摘要
本文提出了一種用於解決多視角第一人稱手部追蹤挑戰的方法。
-
模型架構:
- 包含特徵提取組件、特徵融合模塊和多個回歸部分,可以處理單視角和多視角輸入。
- 對於單視角輸入,特徵直接傳遞到回歸頭部進行手部姿態和形狀估計。
- 對於多視角輸入,特徵首先通過特徵變換層(FTL)模塊進行融合,然後傳遞到後續模塊。
- 將特徵分為不受平移影響的特徵和受平移影響的特徵,分別用於預測姿態、形狀、全局方向和位置。
-
數據增強:
- 應用透視裁剪、FOV和旋轉參數擾動等技術增加視角多樣性。
- 翻轉左手數據模擬右手數據,以支持單手和雙手交互場景。
- 應用裁剪抖動、亮度對比調整、模糊和高斯噪聲等技術。
- 對相機外參數的平移分量添加隨機噪聲,以提高對不同外參數的泛化能力。
-
神經平滑後處理:
- 觀察到2D地標估計通常優於3D估計,因此提出離線神經平滑方法優化3D估計。
- 利用2D投影損失和加速損失,通過迭代優化改善位置預測的準確性和時間一致性。
實驗結果顯示,我們的方法在Umetrack和HOT3D數據集上取得了顯著的性能提升。未來的工作方向包括將神經平滑方法從離線轉為在線,以進一步增強在動態和實際AR/VR應用中的手部追蹤性能。
統計資料
我們的方法在Umetrack數據集上的MPJPE為13.92mm,在HOT3D數據集上的MPJPE為21.66mm。