核心概念
画像と予測のアライメントを改善するために、初期の3Dヒューマンメッシュ推定を洗練する方法を提案します。
要約
Regression-based methods dominate 3D human pose and shape estimation.
Misalignment between predictions and image observations is a common issue.
Proposal to construct dense correspondences for refining initial human model estimates.
Utilization of renderings to predict per-pixel 2D displacements for refinement.
Demonstrated effectiveness in improving image-model alignment and 3D accuracy through refinement procedures on datasets like 3DPW and RICH.
導入
3Dヒューマンポーズと形状の再構築はコンピュータビジョンで重要な問題。
深層CNNとビジョントランスフォーマーにより急速な進歩が達成されている。
問題点
予測したメッシュと画像証拠の粗いアライメントが問題。
小さな関節回転エラーによる累積が原因。
提案
初期ヒューマンモデル推定を洗練するために密な対応関係の構築を提案。
レンダリングを利用して初期予測を洗練するために、合成レンダリングとRGB画像間のピクセルごとの2D変位を予測。
効果
提案手法は画像モデルアライメントおよび3D精度向上に効果的であることを示す。
結論
密な2D変位はOpenPoseやDensePose予測よりも優れた結果をもたらす。
統計
最近、回帰ベースの手法が3D人間ポーズおよび形状推定を支配しています。
画像観察と予測の不一致が一般的な問題です。