核心概念
本研究提出了一種基於臉部表情識別日本手語句子類型的深度學習方法,並透過實驗驗證了該方法的有效性。
摘要
書目資訊
Tatsumi, Y., Tanaka, S., Akamatsu, S., Shindo, T., & Watanabe, H. (2024). Classification in Japanese Sign Language Based on Dynamic Facial Expressions. arXiv:2411.06347v1 [cs.CV].
研究目標
本研究旨在開發一種基於臉部表情識別日本手語 (JSL) 句子類型的方法。
方法
- 收集包含肯定句、是非問句和疑問句三種類型 JSL 句子的影片資料集。
- 使用 OpenPose、MediaPipe 和 Dlib 三種模型進行臉部特徵點偵測。
- 將偵測到的特徵點輸入卷積神經網路進行分類訓練。
主要發現
- 使用 OpenPose 模型進行臉部特徵點偵測,結合資料增強策略,可以達到 96.05% 的句子類型分類準確率。
- 相比之下,MediaPipe 和 Dlib 模型的準確率較低,這可能是因為 OpenPose 在處理複雜背景和頭部快速移動方面表現更出色。
主要結論
基於臉部表情的深度學習方法可以有效識別 JSL 句子類型,特別是使用 OpenPose 模型進行特徵點偵測時,可以獲得較高的準確率。
研究意義
本研究為 JSL 識別提供了新的思路,並為聽障人士與健聽人士之間更準確、流暢的溝通奠定了基礎。
局限與未來研究方向
- 未來研究可以結合手勢估計技術,以實現更全面的 JSL 識別。
- 需要建立更大規模、更多樣化的 JSL 資料集,以提高模型的泛化能力。
統計資料
使用 OpenPose 模型進行臉部特徵點偵測的句子類型分類準確率為 96.05%。
使用 MediaPipe 模型進行臉部特徵點偵測的句子類型分類準確率為 88.16%。
使用 Dlib 模型進行臉部特徵點偵測的句子類型分類準確率為 82.89%。
本研究共收集了 378 部 JSL 影片作為資料集。
資料集中包含肯定句、是非問句和疑問句三種類型的 JSL 句子。
每部影片的長度不超過 10 秒,幀率為 30 fps。
引述
"In JSL, sentence types such as affirmative statements and questions are distinguished by facial expressions."
"These markers have significant impact on syntactic and semantic information."
"Employing OpenPose as the detection model results in higher accuracy compared to both MediaPipe and Dlib."