核心概念
低解像度の画像特徴に依存する従来の動画ベースの人間のメッシュ復元手法の限界を克服するために、骨格情報を利用した新しい半解析的回帰器ARTSを提案する。
摘要
ARTS: 動画からの人間のメッシュ復元のための、分離された骨格表現を用いた半解析的回帰器
この論文は、動画から人間のメッシュをより正確かつ時間的に一貫性のある方法で復元する新しい手法、ARTS (Semi-Analytical Regressor using DisenTangled Skeletal representations) を提案しています。
従来手法の課題
従来の動画ベースの人間のメッシュ復元手法は、低解像度の画像特徴から人間の姿勢や形状を推定するため、以下の3つの課題がありました。
- 不正確な姿勢推定: 画像特徴は空間情報が不足しており、ノイズが多いため、正確な姿勢推定が困難でした。
- 非効率的な形状フィッティング: データセットの被験者数が限られているため、体型データが不足し、過剰適合が発生しやすいため、平均的な人間の形状しか復元できませんでした。
- 不連続な人間の動き: 画像特徴には、背景、照明、衣服など、人間の動きの捕捉に影響を与える様々なノイズが含まれており、不自然な動きのジッターが発生しやすいため、滑らかな動きの復元が困難でした。
ARTS の提案
ARTS は、これらの課題を克服するために、骨格情報を活用した新しい半解析的回帰器を提案しています。
1. 骨格推定と分離
ARTS は、まず動画から 3D 骨格を推定し、それを関節位置、骨の長さ、人間の動きの3つの要素に分離します。
2. 半解析的 SMPL 回帰器
次に、分離された骨格表現と画像特徴から SMPL パラメータを推定するために、半解析的 SMPL 回帰器を使用します。
- 時間的逆運動学 (TIK): 関節位置と画像特徴から、時間的に一貫性のある SMPL 関節回転を推定します。
- 骨格に基づく形状フィッティング (BSF): 骨の長さから、骨格に合わせた SMPL 形状パラメータを推定します。
- 動き中心の絞り込み (MCR): 人間の動き表現と画像特徴を融合し、動き中心の特徴を用いて初期 SMPL パラメータを絞り込み、人間のメッシュの時間的整合性を向上させます。
実験結果
ARTS は、3DPW、MPI-INF-3DHP、Human3.6M などの一般的な 3D 人間のメッシュ復元ベンチマークにおいて、従来の最先端の動画ベースの手法よりも優れた性能を達成しました。
結論
ARTS は、骨格情報を効果的に活用することで、より正確かつ時間的に一貫性のある人間のメッシュ復元を実現する、新しい半解析的回帰器です。
统计
ARTSは、従来の最先端技術であるPMCEと比較して、3DPW、MPI-INF-3DHP、Human3.6Mのデータセットにおいて、MPJPEにおいてそれぞれ2.6%(69.5mmから67.7mm)、9.9%(79.7mmから71.8mm)、3.6%(53.5mmから51.6mm)の削減を達成しました。
クロスデータセット評価において、ARTSは、Bi-CFと比較して、MPJPE、PA-MPJPE、MPVPEの精度指標において、それぞれ10.7%(78.3mmから69.9mm)、8.9%(53.7mmから48.9mm)、10.5%(95.6mmから85.6mm)の大幅な改善を示しました。
時間的整合性指標であるAccelにおいても、ARTSはBi-CFと比較して、23.3%(8.6mm/s2から6.6mm/s2)の大幅な削減を達成しました。
TIKのみを使用した場合、MPJPEが2.7mm減少しました。
MCRのみを使用した場合、Accelが8.8mm/s2減少しました。
BSFのみを使用した場合、MPVPEが4.2mm減少しました。
TIKとFIKに2%のガウシアンノイズを加えた場合、TIKは精度と一貫性を維持できましたが、FIKのAccelは9.9mm/s2増加し、精度も低下しました。
10%のノイズを加えた場合、TIKとFIKの両方に大きな誤差が生じましたが、TIKはMPJPEにおいてFIK(43.3%)よりも小さい低下率(12.4%)を示しました。
分析のみを用いた形状フィッティング戦略では、MPVPEが1.8mm減少しました。
MLPのみを用いた形状フィッティング戦略では、MPVPEが1.0mm減少しました。