Core Concepts
Ego-Exo4Dは、熟練した人間の活動を同時に捉えた第一人称と第三人称の視点のビデオデータセットであり、これらの視点間の関係を理解するための新しい課題を提案する。
Abstract
Ego-Exo4Dは、740人の参加者が13の都市で123の異なる自然な環境で行う熟練した身体的・手順的活動(スポーツ、音楽、ダンス、自転車修理など)を同時に撮影したマルチモーダルマルチビューのビデオデータセットです。合計1,286時間のビデオが収録されています。
データセットには、参加者自身による第一人称の解説、第三者による詳細な行動解説、そして専門家による熟練度に関するコメンタリーなどの豊富な言語アノテーションも含まれています。
このデータセットを活用して、第一人称と第三人称の視点間の対応付けや変換、細かな行動認識、熟練度推定、3D手・体姿勢推定などの新しい課題に取り組むことができます。これらの課題は、AR支援、ロボット学習、ソーシャルネットワークなどの応用につながると期待されます。
Stats
"ダンサーの手は少し内側に回っています。手のひらは地面に向くべきです。"
"Cが1フレーズ分前に進みながら肩をすくめています。"
"さあ、左前、右後ろ、1、2、3、4と行きましょう。"
Quotes
"ダンサーの手は少し内側に回っています。手のひらは地面に向くべきです。"
"Cが1フレーズ分前に進みながら肩をすくめています。"
"さあ、左前、右後ろ、1、2、3、4と行きましょう。"