Alapfogalmak
3D人間ポーズと自然言語の関係付けを行うことで、画像キャプショニング、視覚的質問応答、クロスモーダル検索などのコンピュータビジョンアプリケーションに詳細な意味情報を提供できる。
Kivonat
本論文では、3D人間ポーズと詳細な人間注釈付き説明を対にした「PoseScript」データセットを紹介する。このデータセットには、AMASS データセットから抽出した6,000以上の3D人間ポーズと、それらの身体部位とその空間関係を記述した豊富な人間注釈が含まれている。さらに、データ駆動型の学習アルゴリズムに適した規模のデータセットを得るため、自動合成説明生成プロセスを提案している。このプロセスでは、3Dキーポイントから「ポーズコード」と呼ばれる低レベルのポーズ情報を抽出し、それらを統語規則に基づいて高レベルの自然言語説明に変換する。
提案するPoseScriptデータセットを活用して、3つのマルチモーダル学習タスクを実現している。1つ目は、テキストクエリから関連する3Dポーズを大規模データベースから検索するタスク。2つ目は、テキスト説明に基づいて3Dポーズを生成するタスク。3つ目は、与えられた3Dポーズから説明文を生成するタスクである。これらのアプリケーションは、注釈付きポーズの多様性と有用性を示している。
Statisztikák
3Dキーポイントの角度は'straight'、'slightly bent'、'partially bent'、'bent at right angle'、'almost completely bent'、'completely bent'のいずれかに分類される。
2つのキーポイント間の距離は'close'、'shoulder width apart'、'spread'、'wide apart'のいずれかに分類される。
キーポイント間の相対位置は、x軸方向に'at the right of'、'x-ignored'、'at the left of'、y軸方向に'below'、'y-ignored'、'above'、z軸方向に'behind'、'z-ignored'、'in front of'のいずれかに分類される。
2つのキーポイントで定義される身体部位の傾きは'vertical'、'horizontal'、'pitch-roll-ignored'のいずれかに分類される。
キーポイントが地面に接しているかどうかは'on the ground'、'ground-ignored'のいずれかに分類される。
Idézetek
"The pose has the head down, ultimately touching the floor, with the weight of the body on the palms and the feet. The arms are stretched straight forward, shoulder width apart; the feet are a foot apart, the legs are straight, and the hips are raised as high as possible."
"Being able to automatically map natural language descriptions and accurate 3D human poses would open the door to a number of applications such as helping image annotation when the deployment of Motion Capture (MoCap) systems is not practical; performing pose-based semantic searches in large-scale datasets, which are currently only based on high-level metadata such as the action being performed; complex pose or motion data generation in digital animation; or teaching posture skills to visually impaired."