核心概念
本文提出了一種針對遮擋環境下自監督骨架動作識別的新方法,通過數據增強和數據插補技術提高模型在實際應用中的魯棒性。
摘要
研究背景
人體動作識別在人機交互、醫療保健、工業自動化等領域有著廣泛的應用。基於骨架的動作識別利用稀疏的 3D 骨架數據作為輸入,與基於圖像或視頻的動作識別相比,對外觀因素不太敏感,並且具有效率高、推理速度快、內存使用量小等優點。然而,現有的自監督骨架動作識別方法大多是在約束良好的環境中收集的無遮擋數據上進行的,而在實際應用中,機器人經常會遇到遮擋環境,這對模型的魯棒性提出了挑戰。
本文貢獻
本文首次針對遮擋環境下的自監督骨架動作識別任務提出了有效的解決方案。主要貢獻包括:
- 構建了一個大規模的遮擋自監督骨架動作識別基準數據集,包括 NTU-60 和 NTU-120 數據集的遮擋版本。
- 提出了兩種技術來減輕遮擋的影響:
- 基於 K 均值和 K 最近鄰的兩階段插補方法(KNN-Imputation): 該方法通過在特徵空間中聚類相似的樣本來減少計算開銷,並利用同類別中的近鄰樣本對遮擋的骨架數據進行插補。
- 數據驅動的自適應空間遮罩(ASM)數據增強技術: 該技術根據數據集中缺失關節的分佈情況對關節進行遮罩,以有效利用完整數據學習特徵表示,並構建了遮擋部分時空學習(OPSTL)框架。
實驗結果
實驗結果表明,本文提出的方法在各種自監督方法中都取得了顯著的性能提升,證明了其在實際應用中的有效性。
統計資料
在具有真實遮擋的 NTU-60 數據集上,OPSTL 在跨主體和跨視圖評估設置中分別比現有最佳方法 PSTL 提高了 1.59% 和 1.95% 的準確率。
在具有真實遮擋的 NTU-120 數據集上,OPSTL 在跨主體和跨設置評估設置中分別實現了 1.47% 和 2.28% 的性能提升。
引述
"The majority of existing work on self-supervised skeleton-based action recognition [29]–[33] is conducted on occlusion-free data collected in well-constrained environments."
"In this work, we for the first time tackle the self-supervised skeleton-based action recognition task under occlusions."