核心概念
複数のモダリティ(画像、3D姿勢、テキスト)を組み合わせることで、より豊かな人間の姿勢表現を得ることができる。
要約
本研究では、3D姿勢、人物の画像、姿勢の文章説明を組み合わせることで、意味的、視覚的、3D的に認識可能な人間の姿勢表現を提案している。
- 3D姿勢、画像、テキストの各モダリティを独立にエンコードし、それらを統合するトランスフォーマーベースのモデル「PoseEmbroider」を開発した。
- PoseEmbroidderは、各モダリティ間の対比的な学習を通じて、単一のモダリティでは得られない情報を引き出すことができる。
- PoseEmbroidderを用いて、姿勢指示生成やSMPL回帰などの応用タスクで良好な結果を得ることができた。
- 特に、画像入力のみでも高精度な姿勢指示生成が可能であり、従来の3D姿勢入力を必要とするモデルよりも優れている。
統計
人物の右ひざが直角に曲がり、両足が肩幅に開いている。
左肘が曲がり、左手が体の後ろにある。頭が少し右を向いている。
両手が肩幅に開き、ひじがやや曲がっている。
引用
"複数のモダリティを組み合わせることで、単一のモダリティでは得られない情報を引き出すことができる。"
"PoseEmbroidderを用いることで、画像入力のみでも高精度な姿勢指示生成が可能となった。"