แนวคิดหลัก
本文提出了一種新穎的單詞級手語識別方法,該方法利用多流神經網路 (MSNN) 來整合多種資訊,包括手部和臉部的局部資訊,以及身體和雙手的相對位置,以提高識別準確率。
บทคัดย่อ
文獻資訊
- Maruyama, M., Singh, S., Inoue, K., Roy, P. P., Iwamrua, M., & Yoshioka, M. (2016). Word-level Sign Language Recognition with Multi-stream Neural Networks Focusing on Local Regions and Skeletal Information. IEEE Access, 4, 1-1.
研究目標
本研究旨在開發一種更精確的單詞級手語識別 (WSLR) 方法,以解決傳統方法僅關注全局資訊而忽略局部細節的局限性。
方法
- 本文提出了一種基於多流神經網路 (MSNN) 的方法,該方法整合了三種資訊流:
- 基礎流:處理全局資訊,包括從輸入手語影片中提取的全局外觀和光流資訊。
- 局部圖像流:處理局部資訊,包括手形和面部表情。
- 骨骼流:捕捉身體和雙手的相對位置資訊。
- 基礎流和局部圖像流使用 I3D 網路,而骨骼流使用時空圖卷積網路 (ST-GCN)。
- 每個資訊流都經過獨立訓練,並在測試階段對其分類分數進行平均,以獲得最終識別結果。
主要發現
- 在大規模 WSLR 數據集 WLASL 和 MS-ASL 上進行的實驗結果表明,與傳統方法相比,該方法的 Top-1 準確率提高了約 10%-15%。
- 局部圖像流和骨骼流的引入顯著提高了識別準確率,特別是在識別包含相似手部和身體動作的詞語方面。
主要結論
- 結合多種資訊,包括手部和臉部的局部資訊,以及身體和雙手的相對位置,可以有效提高 WSLR 的準確率。
- MSNN 框架提供了一種有效的方法來整合和利用這些不同的資訊源。
意義
本研究為 WSLR 提供了一種新穎且有效的方法,強調了局部資訊和骨骼資訊在提高識別準確率方面的重要性。
局限性和未來研究方向
- 未來的研究可以探索更複雜的資訊融合策略,以進一步提高識別準確率。
- 研究其他類型的局部資訊,例如手指運動和方向,也可能是有益的。
สถิติ
在 WLASL100 數據集上,與僅使用全局圖像的 I3D 相比,使用局部圖像流的模型的 Top-1 準確率提高了 10.71%,從 65.89% 提高到 76.60%。
在 WLASL100 數據集上,與僅使用全局圖像的 I3D 相比,使用骨骼流的模型的 Top-1 準確率提高了 5.18%,從 65.89% 提高到 71.07%。
在 WLASL100 數據集上,對於單詞 "man",僅使用全局資訊的 Baseline2 模型的 Top-1 準確率為 0%,而使用局部圖像流和骨骼流的 Ours6 模型的準確率提高到 100%。
คำพูด
"在 WSLR 問題中,為動作識別而設計的方法已達到最先進的準確率。的確,動作識別方法在 WSLR 上表現良好聽起來是合理的,因為手語被視為一種動作。然而,仔細評估這些任務後發現,動作識別和 WSLR 的任務在本質上是不同的。"
"因此,在 WSLR 中,我們需要捕捉更多有助於區分手語姿勢的詳細資訊。然而,傳統研究主要關注全局資訊,例如從手語者上半身提取的外觀資訊。雖然一些研究關注局部資訊,例如手形,但這些研究基本上只利用單一局部資訊。與之相比,我們也關注局部資訊,並結合多種資訊進行 WSLR。"
"因此,在本文中,我們提出了一種新穎的 WSLR 方法,該方法可以利用有助於區分手語動作的資訊因素。如圖 1 所示,我們將其實現為一個 MSNN,以結合從多個資訊源獲得的各種資訊。"