Core Concepts
一人称視点の単一RGB画像から2D手の姿勢と物体の位置を推定し、それらの情報を用いて高精度な行動認識を行う。
Abstract
本研究では、一人称視点の行動認識のために、2D手の姿勢推定と物体位置推定を行う手法を提案している。
まず、EffHandNetとEffHandEgoNetという2つの新しい2D手の姿勢推定モデルを開発した。EffHandNetは単一手の姿勢推定に優れ、FreiHANDデータセットで最高性能を達成した。一方、EffHandEgoNetは一人称視点の姿勢推定に特化しており、H2OデータセットとFPHAデータセットで最高性能を示した。特に、手が重なり合う場合や遮蔽が起こる場合でも高精度な推定が可能である。
次に、推定された手の姿勢と物体の位置情報を入力として、トランスフォーマーベースの行動認識モデルを構築した。FPHA データセットでは94.43%の精度を達成し、単一手での行動認識でも高い性能を示した。H2Oデータセットでは2手を使う行動を対象とし、91.32%の精度で最高性能を達成した。さらに、提案手法は従来手法と比べて高速な推論が可能である。
追加の実験と分析から、手の姿勢推定精度が行動認識精度に大きな影響を与えることが分かった。一人称視点に特化したEffHandEgoNetが最も優れた性能を示し、一般的な手の姿勢推定手法では一人称視点の課題に対応できないことが明らかになった。
本研究は、一人称視点の行動認識において、3D手の姿勢情報に頼らずに2D情報のみで高精度な認識が可能であることを示した。これにより、複雑なモデルを簡略化し、高速な推論を実現できる可能性が示された。
Stats
手の姿勢推定の平均エンドポイントエラーは9.80ピクセルであり、これは手の大きさの5.4%に相当する。
H2Oデータセットでの行動認識精度は91.32%であり、従来手法を上回る。
FPHAデータセットでの単一手の行動認識精度は94.43%であり、最高水準の性能を示した。
Quotes
"一人称視点の行動認識は、ユーザの日常生活活動を自動的かつ継続的に監視することを可能にし、重要な応用分野を持つ。"
"既存研究は3D手の姿勢入力に焦点を当てているが、計算量の大きい深度推定ネットワークや不便な深度センサの着用が必要となる。"
"2D手の姿勢を用いた行動認識の可能性を探ることは重要であり、ユーザフレンドリーなスマートグラスなどの単一RGB画像キャプチャデバイスの活用につながる。"