toplogo
登入

在遮擋情況下探索基於自監督骨架的人體動作識別


核心概念
本文提出了一種針對遮擋環境下自監督骨架動作識別的新方法,通過數據增強和數據插補技術提高模型在實際應用中的魯棒性。
摘要

研究背景

人體動作識別在人機交互、醫療保健、工業自動化等領域有著廣泛的應用。基於骨架的動作識別利用稀疏的 3D 骨架數據作為輸入,與基於圖像或視頻的動作識別相比,對外觀因素不太敏感,並且具有效率高、推理速度快、內存使用量小等優點。然而,現有的自監督骨架動作識別方法大多是在約束良好的環境中收集的無遮擋數據上進行的,而在實際應用中,機器人經常會遇到遮擋環境,這對模型的魯棒性提出了挑戰。

本文貢獻

本文首次針對遮擋環境下的自監督骨架動作識別任務提出了有效的解決方案。主要貢獻包括:

  1. 構建了一個大規模的遮擋自監督骨架動作識別基準數據集,包括 NTU-60 和 NTU-120 數據集的遮擋版本。
  2. 提出了兩種技術來減輕遮擋的影響:
    • 基於 K 均值和 K 最近鄰的兩階段插補方法(KNN-Imputation): 該方法通過在特徵空間中聚類相似的樣本來減少計算開銷,並利用同類別中的近鄰樣本對遮擋的骨架數據進行插補。
    • 數據驅動的自適應空間遮罩(ASM)數據增強技術: 該技術根據數據集中缺失關節的分佈情況對關節進行遮罩,以有效利用完整數據學習特徵表示,並構建了遮擋部分時空學習(OPSTL)框架。

實驗結果

實驗結果表明,本文提出的方法在各種自監督方法中都取得了顯著的性能提升,證明了其在實際應用中的有效性。

edit_icon

客製化摘要

edit_icon

使用 AI 重寫

edit_icon

產生引用格式

translate_icon

翻譯原文

visual_icon

產生心智圖

visit_icon

前往原文

統計資料
在具有真實遮擋的 NTU-60 數據集上,OPSTL 在跨主體和跨視圖評估設置中分別比現有最佳方法 PSTL 提高了 1.59% 和 1.95% 的準確率。 在具有真實遮擋的 NTU-120 數據集上,OPSTL 在跨主體和跨設置評估設置中分別實現了 1.47% 和 2.28% 的性能提升。
引述
"The majority of existing work on self-supervised skeleton-based action recognition [29]–[33] is conducted on occlusion-free data collected in well-constrained environments." "In this work, we for the first time tackle the self-supervised skeleton-based action recognition task under occlusions."

從以下內容提煉的關鍵洞見

by Yifei Chen, ... arxiv.org 10-24-2024

https://arxiv.org/pdf/2309.12029.pdf
Exploring Self-Supervised Skeleton-Based Human Action Recognition under Occlusions

深入探究

除了數據增強和數據插補之外,還有哪些方法可以提高自監督骨架動作識別模型在遮擋環境下的魯棒性?

除了數據增強和數據插補,以下方法也可以提高自監督骨架動作識別模型在遮擋環境下的魯棒性: 圖神經網絡結構優化: 設計遮擋感知的圖卷積: 可以設計特殊的圖卷積核或注意力機制,使其在計算過程中更加關注未被遮擋的關節點信息,降低遮擋對動作識別的影響。 動態圖構建: 根據遮擋情況動態調整骨架圖的結構,例如,對於被遮擋的關節點,可以暫時移除其與其他關節點的連接,或建立新的連接以維持動作信息的完整性。 多模態信息融合: 結合RGB圖像信息: 利用RGB圖像提供的外觀信息來彌補骨架數據的缺失,例如,可以使用圖像分割技術定位人體區域,並結合骨架數據進行動作識別。 結合深度信息: 深度圖像可以提供更精確的人體深度信息,有助於更準確地估計被遮擋關節點的位置。 訓練策略: 遮擋感知的損失函數: 設計新的損失函數,降低模型對遮擋的敏感度,例如,可以對被遮擋的關節點賦予較低的權重,或使用對抗訓練策略來提高模型的魯棒性。 Curriculum Learning: 採用課程學習策略,先使用簡單的、遮擋較少的數據訓練模型,然後逐步增加數據的難度,使模型逐漸適應遮擋的情況。 時序信息利用: 長短時記憶網絡 (LSTM): 使用LSTM網絡來學習動作序列中的時序關係,即使某些幀的骨架數據被遮擋,模型仍然可以根據上下文信息進行準確的動作識別。 Transformer網絡: Transformer網絡在處理時序數據方面表現出色,可以有效地捕捉長距離的時序依賴關係,提高模型對遮擋的魯棒性。

本文提出的方法是否可以推廣到其他類型的動作識別任務,例如基於視頻的動作識別?

本文提出的方法主要針對基於骨架的動作識別,但其中的某些思想可以推廣到其他類型的動作識別任務,例如基於視頻的動作識別: Adaptive Spatial Masking (ASM): ASM 的核心思想是根據數據集中遮擋的分布情況,自適應地遮擋輸入數據,以提高模型的魯棒性。這種思想可以應用於視頻數據,例如,可以根據視頻數據集中人體或物體遮擋的常見區域,設計自適應的遮擋策略。 KNN Imputation: KNN 插值法利用相似的樣本來填補缺失數據。在基於視頻的動作識別中,可以使用 KNN 插值法來填補遮擋或丟失的視頻幀,或使用光流信息來估計被遮擋區域的運動信息。 然而,直接將本文提出的方法應用於基於視頻的動作識別任務仍面臨一些挑戰: 數據複雜度: 視頻數據比骨架數據更加複雜,包含更豐富的信息,例如背景、光照、視角等,這些因素都會影響動作識別的準確性。 計算成本: 視頻數據的維度遠高於骨架數據,處理視頻數據需要更高的計算成本,特別是 KNN 插值法需要計算樣本之間的距離,對於大規模視頻數據集來說,計算量巨大。 因此,需要對本文提出的方法進行適當的調整和優化,才能更好地應用於基於視頻的動作識別任務。

如果將本文提出的方法應用於機器人控制領域,例如讓機器人通過觀察人類動作來學習操作技能,會面臨哪些挑戰?

將本文提出的方法應用於機器人控制領域,讓機器人通過觀察人類動作來學習操作技能,將面臨以下挑戰: 真實世界環境的複雜性: 多樣化的遮擋: 真實世界中,機器人觀察人類動作時會遇到各種遮擋,例如人體自遮擋、物體遮擋、環境遮擋等,這些遮擋情況比實驗室環境更加複雜多變。 視角變化: 機器人觀察人類動作的視角往往是動態變化的,這會導致骨架數據的尺度變化、旋轉變化等,增加動作識別的難度。 光照變化: 不同光照條件下,骨架數據的質量會受到影響,例如,在强光或陰影下,骨架數據可能會出現丟失或噪聲。 人類動作的多樣性和複雜性: 動作細微差異: 人類完成同一動作時,可能會存在細微的差異,例如速度、幅度、姿態等,這些差異對於機器人來說可能難以區分,但卻會影響操作技能的學習。 複合動作: 人類的許多操作技能都是由一系列連續的動作組成的,例如抓取物體、打開門等,機器人需要學會識別這些複合動作,並理解每個動作之間的關聯。 機器人控制的實時性要求: 動作識別速度: 機器人需要實時地識別人類動作,才能及時地做出反應,這就要求動作識別算法具有較高的效率。 控制策略: 機器人需要根據識別的人類動作,選擇合適的控制策略來完成操作任務,這需要設計高效的控制算法,並進行大量的實驗來優化參數。 總之,將本文提出的方法應用於機器人控制領域是一個很有前景的方向,但也面臨著諸多挑戰。需要進一步研究如何提高算法的魯棒性、泛化能力和效率,才能讓機器人更好地理解和學習人類動作,並完成複雜的操作任務。
0
star