核心概念
本文提出了一種名為時空相對變換器網路 (ST-RTR) 的新型量子模型,用於基於骨架的人體動作識別。ST-RTR 克服了傳統圖卷積網路感受野有限的局限性,並透過相對變換器有效捕捉骨架數據中的時空關係,在保持圖拓撲結構的同時,降低了計算複雜度。
摘要
文獻資訊
- 標題: 基於骨架的量子時空相對變換器網路 (ST-RTR) 在人體動作識別 (HAR) 中的應用
- 作者: Faisal Mehmood, Enqing Chen, Touqeer Abbas, and Samah M. Alzanin
研究目標
本研究旨在開發一種基於骨架的量子時空相對變換器網路 (ST-RTR) 模型,用於人體動作識別 (HAR),並解決現有方法的局限性,例如圖卷積網路的感受野狹窄以及傳統變換器無法捕捉相對位置資訊的問題。
方法
- 本文提出了一種名為 ST-RTR 的新型雙流變換器模型,利用空間和時間相對變換器來識別骨架動作。
- 為了進行空間和時間建模,開發了一種輕量級的相對變換器模型。
- 本文提出了一個在空間維度上運作的量子空間相對變換器模組 (S-RTR),用於在保持基本骨架拓撲結構的同時構建長距離依賴關係。T-RTR 模型評估了非連續幀之間的連接,以便在不修改骨架序列的情況下獲得更長的時間資訊。
- ST-GCN 模型將來自量子 ST-RTR 流的骨架關節作為輸入,而時空相對變換器則計算特徵作為輸出,並將其輸入融合模型。
主要發現
- 實驗結果表明,ST-RTR 模型在四個基準數據集(NTU RGB+D 60、NTU RGB+D 120 和 UAV-Human)上優於多種最先進的方法,包括 ST-GCN。
- ST-RTR 模型在實現更高準確性的同時,需要的參數更少。
- 結合關節和骨骼資訊,該模型始終優於 ST-GCN [11]、A-GCN [12] 和 MSST-RT [13],取得了最先進的結果。
主要結論
- ST-RTR 模型透過使用相對變換器捕捉骨架數據中的空間和時間關係,為基於骨架的動作識別提供了一種有效的方法。
- ST-RTR 模型在多個基準數據集上的實驗結果證明了其有效性和對最先進方法的改進。
研究意義
這項研究對基於骨架的人體動作識別領域做出了重大貢獻。所提出的 ST-RTR 模型為開發更準確和高效的 HAR 系統提供了新的途徑,這些系統有可能徹底改變人機交互、醫療保健和視頻監控等各個領域。
局限性和未來研究方向
- 未來的研究可以探討將 ST-RTR 模型擴展到更複雜的動作識別任務,例如多標籤動作識別和時序動作定位。
- 此外,研究 ST-RTR 模型在其他應用領域(如機器人技術和自動駕駛)中的應用將是有價值的。
統計資料
在 NTU RGB+D 60 數據集上,ST-RTR 在交叉主體 (CS) 和交叉視角 (CV) 設定下分別達到了 89.10% 和 94.90% 的準確率。
在 NTU RGB+D 60 數據集上,ST-RTR+Fusion 在交叉主體 (CS) 和交叉視角 (CV) 設定下分別達到了 90.81% 和 95.95% 的準確率。
在 NTU RGB+D 120 數據集上,ST-RTR 在交叉主體 (CS) 和交叉視角 (CV) 設定下分別達到了 83.50% 和 84.10% 的準確率。
在 NTU RGB+D 120 數據集上,ST-RTR+Fusion 在交叉主體 (CS) 和交叉視角 (CV) 設定下分別達到了 84.45% 和 84.75% 的準確率。
引述
"This research introduced a new mechanism on a light transformer, called a relative transformer, that eliminates the issues identified in the prior study."
"Consequently, we call this model the 'spatial-temporal relative transformer' (ST-RTR)."
"So, we offer a fusion model that efficiently expresses an ST-RTR skeleton sequence's output."