Ego-Exo4D는 740명의 참여자가 13개 도시에서 123개 자연스러운 장면 맥락에서 수행한 숙련된 인간 활동(스포츠, 음악, 댄스, 자전거 수리 등)을 1인칭 및 3인칭 비디오로 동시에 포착한 대규모 다중 모달 데이터셋이다. 총 1,286시간의 비디오와 5,035개의 인스턴스로 구성되어 있다.
이 데이터셋은 비디오 외에도 다중 채널 오디오, 시선 추적, 3D 포인트 클라우드, 카메라 자세, IMU 데이터 등 다양한 모달리티를 제공한다. 또한 참여자의 1인칭 내레이션, 3인칭 행동 설명, 전문가 코멘터리 등 풍부한 언어 데이터도 포함하고 있다.
Ego-Exo4D는 숙련된 인간 활동의 1인칭 이해를 위한 네 가지 주요 과제를 제안한다: 1) 1인칭-3인칭 관계 이해, 2) 1인칭(및 3인칭) 행동 인식, 3) 1인칭(및 3인칭) 숙련도 추정, 4) 1인칭 자세 추정. 이를 위해 200,000시간 이상의 고품질 주석을 제공하며, 기준 모델도 함께 공개한다.
Ego-Exo4D는 숙련된 인간 활동 이해를 위한 새로운 연구 방향을 제시하며, 관련 분야의 발전을 이끌어낼 것으로 기대된다.
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Kristen Grau... о arxiv.org 04-30-2024
https://arxiv.org/pdf/2311.18259.pdfГлибші Запити