核心概念
HaHeAE 是一種新型的自監督學習方法,可以學習人類手部和頭部運動的通用聯合表徵,並應用於擴展實境(XR)中。
論文概述
本論文介紹了 HaHeAE,這是一種用於學習擴展實境 (XR) 中人類手部和頭部運動之通用聯合表徵的新型自監督方法。該方法的核心是一個自動編碼器 (AE),它使用基於圖卷積網絡 (GCN) 的語義編碼器和基於擴散的隨機編碼器來分別學習手部-頭部運動的聯合語義和隨機表徵。此外,它還採用了基於擴散的解碼器,從學習到的嵌入中重建原始信號。
研究背景
人類手部和頭部運動是擴展實境 (XR) 中最普遍的輸入方式,對於各種 XR 應用至關重要,例如交互目標預測、重定向行走、減少暈動症、用戶識別和活動識別等。然而,現有的手部和頭部建模方法通常只關注單一模態或特定應用,忽略了手部和頭部運動在幾乎所有活動中都密切協調的事實。
研究方法
HaHeAE 方法的核心是一個自動編碼器,它包含以下組件:
基於 GCN 的語義編碼器: 使用圖卷積網絡從手部-頭部數據中提取語義特徵。
基於 DDIM 的隨機編碼器: 採用去噪擴散隱式模型 (DDIM) 對原始手部-頭部數據的隨機變化進行編碼。
基於 DDIM 的手部-頭部解碼器: 使用語義和隨機手部-頭部表徵重建原始輸入信號。
手部-頭部預測: 作為輔助訓練任務,用於優化語義表徵中編碼的時空特徵。
實驗結果
研究人員在三個公開可用的 XR 數據集(EgoBody、ADT 和 GIMO)上對 HaHeAE 進行了評估,這些數據集包含在不同 XR 環境中由不同用戶執行各種日常活動時收集的人類手部和頭部數據。實驗結果表明,HaHeAE 在重建質量方面顯著優於其他方法,並且可以泛化到不同的用戶、活動和 XR 環境。
主要貢獻
本研究的主要貢獻有三方面:
提出了 HaHeAE,這是一種新型的自監督方法,它首先使用基於 GCN 的語義編碼器和基於擴散的隨機編碼器分別從手部-頭部信號中學習聯合語義和隨機嵌入,然後應用基於擴散的解碼器從學習到的嵌入中重建原始信號。
在三個公開的 XR 數據集上進行了廣泛的實驗,證明了該方法在重建質量方面顯著優於其他方法,並且可以泛化到不同的用戶、活動和 XR 環境。
展示了該方法的新應用,包括可解釋的手部-頭部集群識別和手部-頭部運動生成,並且可以用作兩個實際下游任務(用戶識別和活動識別)的有效特徵提取器。
總結
HaHeAE 是一種很有前景的方法,它首次證明了以自監督的方式學習人類手部和頭部運動之通用聯合表徵的可 feasibility。這項工作為 XR 中的手部-頭部行為建模開闢了一個令人興奮的新研究方向。
統計資料
在 ADT 數據集上,HaHeAE 在手部和頭部重建方面分別比其他方法提高了 49.2% 和 74.0%。
在 GIMO 數據集上,HaHeAE 在手部和頭部重建方面分別比其他方法提高了 44.3% 和 57.3%。
在 EgoBody 數據集上進行的用戶識別任務中,HaHeAE 的準確率達到 29.8%,明顯優於其他方法。
在 EgoBody 和 ADT 數據集上進行的活動識別任務中,HaHeAE 的準確率分別為 55.7% 和 63.9%,同樣優於其他方法。