Ego-Exo4D는 740명의 참여자가 13개 도시에서 123개 자연스러운 장면 맥락에서 수행한 숙련된 인간 활동(스포츠, 음악, 댄스, 자전거 수리 등)을 1인칭 및 3인칭 비디오로 동시에 포착한 대규모 다중 모달 데이터셋이다. 총 1,286시간의 비디오와 5,035개의 인스턴스로 구성되어 있다.
이 데이터셋은 비디오 외에도 다중 채널 오디오, 시선 추적, 3D 포인트 클라우드, 카메라 자세, IMU 데이터 등 다양한 모달리티를 제공한다. 또한 참여자의 1인칭 내레이션, 3인칭 행동 설명, 전문가 코멘터리 등 풍부한 언어 데이터도 포함하고 있다.
Ego-Exo4D는 숙련된 인간 활동의 1인칭 이해를 위한 네 가지 주요 과제를 제안한다: 1) 1인칭-3인칭 관계 이해, 2) 1인칭(및 3인칭) 행동 인식, 3) 1인칭(및 3인칭) 숙련도 추정, 4) 1인칭 자세 추정. 이를 위해 200,000시간 이상의 고품질 주석을 제공하며, 기준 모델도 함께 공개한다.
Ego-Exo4D는 숙련된 인간 활동 이해를 위한 새로운 연구 방향을 제시하며, 관련 분야의 발전을 이끌어낼 것으로 기대된다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Kristen Grau... at arxiv.org 04-30-2024
https://arxiv.org/pdf/2311.18259.pdfDeeper Inquiries