核心概念
レンズレスイメージングシステムから得られる測定値から、人体の3D姿勢と形状を直接推定する端末レベルのフレームワークを提案する。
要約
本研究では、レンズレスイメージングシステムから得られる測定値から人体の3D姿勢と形状を直接推定する端末レベルのフレームワークを提案している。
具体的には以下の3つの主要な構成要素から成る:
マルチスケールレンズレス特徴デコーダ(MSFDecoder)
レンズレスイメージングシステムによって光学的にエンコードされた情報を効率的に特徴抽出するためのデコーダ
グローバルな知覚レイヤーを導入し、レンズレス測定値からグローバル特徴を効率的に抽出できるようにする
人体パラメトリックモデルレグレッサ
MSFDecoderで抽出した特徴を入力として、SMPLパラメータを推定する
異なるスケールの特徴を段階的に統合し、人体姿勢と形状を推定する
ダブルヘッド補助監督メカニズム(DHAS)
人体の四肢の推定精度を向上させるために導入
2Dキーポイントの推定と密な対応マッピングの2つの補助タスクを同時に学習する
実験結果では、提案手法であるLPSNetが、従来のベースラインよりも優れた人体姿勢と形状の推定精度を示している。特に、四肢の推定精度が大幅に向上している。また、シミュレーションデータセットや実際のシーンでの評価でも良好な結果が得られている。
統計
人体3Dキーポイントの推定誤差は平均119.20mm
人体メッシュの推定誤差は平均134.74mm