Core Concepts
メディアパイプホリスティックのハンド領域の関心領域(ROI)予測に重大な欠陥があり、理想的でないハンドの向きに対応できず、サインランゲージ認識の精度に影響を及ぼしている。追加のハンドキーポイントと z 次元を活用した、データ駆動型のアプローチにより、ROI 推定を改善し、現在の手法よりも高いIntersecion-over-Unionを達成できる。
Abstract
本論文は、メディアパイプホリスティックのハンド領域の関心領域(ROI)予測における重大な欠陥に取り組んでいる。現在の手法は、ハンドの平面がカメラに平行である場合を想定して設計されているが、多くの実用的な状況ではこの前提が成り立たない。この制限により、ハンドROI予測の不正確さが生じ、ハンドキーポイントの検出精度が低下し、全身ポーズ推定の全体的な精度が損なわれる。
著者らは、ハンドROI予測の頑健性を高めるために、データ駆動型のアプローチを提案する。具体的には、ショルダー、エルボー、サムなどの追加のボディキーポイントを活用し、z次元の情報も考慮することで、より良い推定を行う。
評価の結果、提案手法は現在の手法よりもROIの中心と大きさの予測精度が向上し、Intersection-over-Unionも高くなることが示された。一方で、角度の予測精度は低下した。そのため、最終的な解決策としては、中心と大きさはニューラルネットワークで予測し、角度は現在の発発的な手法を使うことが望ましいと考えられる。
提案手法のコードは公開されており、今後の最適化に役立てられる。
Stats
現在の手法では、ROIの最小Intersection-over-Unionが3%しかないが、提案手法では16%まで改善された。
提案手法のROI予測の中心誤差は2.15%、大きさ誤差は17.91%であった。
Quotes
"メディアパイプホリスティックのアプローチには重大な欠陥がある。手のROI領域を決定するためのヒューリスティックは、手の平面がカメラに平行である場合を想定して設計されているが、多くの実用的な状況ではこの前提が成り立たない。"
"この制限により、ハンドROI予測の不正確さが生じ、ハンドキーポイントの検出精度が低下し、全身ポーズ推定の全体的な精度が損なわれる。"