Core Concepts
トークン化された姿勢表現を用いることで、2Dキーポイントと擬似グラウンドトゥルースの使用による3Dポーズ推定精度の低下を抑制し、高精度な3Dポーズ推定を実現する。
Abstract
本研究は、単一画像からの3Dヒューマンポーズと形状の推定問題に取り組んでいる。現状の最良手法では、2Dキーポイントと擬似グラウンドトゥルースを用いることで頑健な性能を発揮するが、3Dポーズ精度と2Dアラインメントの間にトレードオフが存在することを明らかにした。
この問題の根本原因は、カメラモデルの誤差にあることを分析し、定量的に示した。そこで、Threshold-Adaptive Loss Scaling (TALS)と呼ばれる新しい損失関数を提案し、2Dキーポイントと擬似グラウンドトゥルースの過剰な影響を抑制した。
さらに、トークン化された姿勢表現を導入することで、有効な姿勢プライオルを導入し、ロバストな3Dポーズ推定を実現した。提案手法であるTokenHMRは、EMDB及び3DPWデータセットにおいて、従来手法よりも優れた3D精度を示した。また、画像の切り抜きなどの課題に対しても、トークン化された姿勢表現の効果により高いロバスト性を発揮した。
Stats
擬似グラウンドトゥルースを用いた場合の2Dキーポイントの平均誤差は0.66
正解の3Dボディを用いた場合の2Dキーポイントの平均誤差は0.86
Quotes
"現状の最良手法では、2Dキーポイントと擬似グラウンドトゥルースを用いることで頑健な性能を発揮するが、3Dポーズ精度と2Dアラインメントの間にトレードオフが存在する"
"カメラモデルの誤差が根本原因であり、これを定量的に示した"