本論文は、単眼3D人体形状と姿勢推定のためのTransformerフレームワークを提案している。従来のTransformerは、特徴長に関して二次の計算量と記憶量の複雑性を持つ全注意機構を採用しており、高解像度の画像特徴を十分に活用できないという問題があった。
提案手法SMPLerは以下の2つの主要な設計により、この問題を解決している:
注意機構の分離: 提案手法は、特徴-特徴と特徴-目標の相関を モデル化する必要がない点に着目し、全注意機構を目標-特徴注意と目標-目標自己注意に分離することで、特徴長に関して線形の計算量と記憶量を実現している。
SMPLに基づくコンパクトな目標表現: 従来のTransformerは頂点ベースの目標表現を使用していたが、提案手法はSMPLパラメータを直接出力する新しい表現を導入することで、目標表現の次元数を大幅に削減している。
さらに、提案手法は以下の新しい設計も導入している:
これらの設計により、提案手法SMPLerは従来手法と比べて高い精度と効率性を実現している。特に、Human3.6Mデータセットでは、パラメータ数が従来手法の1/3以下で、MPJPE誤差を10%以上改善している。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések