Sign In

MediaPipe Holistic Testing for Sign Language Nonmanual Markers Analysis

Core Concepts
MediaPipe Holistic (MPH) is not reliable for eyebrow movement analysis in sign languages, requiring additional correction models.
1. Introduction Deep Learning advancements enhance Computer Vision (CV) solutions. OpenPose and OpenFace are popular CV packages used in various applications. MediaPipe Holistic (MPH) tracks body, hands, and facial landmarks in 2D video data. 2. Methods Analyzed two data sets: Kazakh-Russian Sign Language (KRSL) utterances and new head tilts/eyebrow raises data set. MPH tested against OpenFace (OF) for eyebrow position tracking. 3. Results MPH results show similarities with corrected OF outputs but have issues with inner and outer eyebrow distances. Head movements distort MPH outputs significantly. 4. Discussion MPH's distortion during head movements makes it unsuitable for linguistic analysis without correction models. Corrective models may not perform as well due to the complexity of MPH distortions. 5. Bibliographical References Lists references related to sign language analysis using Computer Vision tools.
MPHの出力は、頭部運動によって著しく歪む。 MPHの結果は、修正されたOFの出力と類似しているが、内側と外側の眉間距離に問題がある。

Deeper Inquiries

MediaPipe Holistic(MPH)を使用した修正モデルなしで手話の非手動マーカー分析を行うことは可能か?

MediaPipe Holistic(MPH)を使用して修正モデルなしで手話の非手動マーカー分析を行うことは現時点では不可能です。研究結果から明らかに、MPHは頭部運動中に顕著な歪みが生じる傾向があります。具体的には、上方向の頭部運動では眉毛位置推定が低く見積もられ、下方向の頭部運動では眉毛位置推定が高く見積もられるため、極端な場合には raised eyebrows と non-raised eyebrows の距離が同じように誤って解釈されてしまいます。このような複雑で予測不能な歪みの存在から、MPH単体では信頼性の高い結果を得ることが困難です。


MPHが頭部運動中に歪む主要な理由は、特定のヘッドピッチ操作ごとに異なる複雑さや強度で発生するためです。例えば、上方向へのヘッドピッチ操作では眉毛距離が低く見積もられますが、下方向へのヘッドピッチ操作では逆効果として眉毛距離が高く見積もられます。また、内側および外側眉毛ポイント間で異常値差異や raised eyebrows と non-raised eyebrows 間で異常値差異も観察されました。これら複数要因から構成される複雑さ故に、「一般化」した補正方法を採用すること自体困難だったりします。


将来的にMPHの出力結果から導き出された非手動マーカー情報を補正する方法は模索可能です。ただし先述した通り、OF(OpenFace)用いた従来型補正アプローチそのまま応用する際でも MPD の持つ「より複数次元・非線形性」問題等考慮しなければいけません。 今後試験段階でも良いですから新規追加コレクション作成してそれ使って MPH 出力精度改善策実施案件有益そう思われます。