Core Concepts
EgoExoLearn 데이터셋은 전문가의 시연 영상을 보고 사용자가 실시간으로 따라하는 과정을 기록하여, 서로 다른 시점에서의 절차적 활동을 연결하는 능력을 탐구하고자 한다.
Abstract
EgoExoLearn 데이터셋은 전문가의 시연 영상과 사용자가 이를 보고 따라하는 과정을 담은 에고중심 영상으로 구성되어 있다. 이를 통해 사람이 타인의 행동을 관찰하고 자신의 관점에 매핑하는 능력을 이해하고자 한다.
데이터셋에는 총 120시간의 영상이 포함되어 있으며, 일상 활동 5종류와 전문 실험 3종류가 포함되어 있다. 각 영상에는 동작, 시선 등의 다중 모달 주석이 제공된다.
이를 바탕으로 4가지 벤치마크를 제안한다:
시점 간 연관성 파악
시점 간 행동 이해 (예측, 계획, 분할)
시점 간 참조 기술 평가
시점 간 참조 자막 생성
이를 통해 서로 다른 시점에서의 절차적 활동을 연결하는 능력을 평가하고, 시선 정보의 활용 가능성을 탐구한다. 이는 실세계에서 사람의 행동을 관찰하고 이해하는 차세대 AI 에이전트 개발에 기여할 것으로 기대된다.
Stats
사용자가 전문가 시연 영상을 보고 따라하는 과정에서 오른손으로 수행한 동작 중 가장 많이 관찰된 동사는 "squeeze"와 "wash"이다.
오른손으로 사용한 가장 많은 물체는 "bottle"과 "syringe"이다.
Quotes
"사람은 어릴 때부터 타인의 행동을 관찰하고 자신의 관점에 매핑하는 능력을 가지고 있다."
"현재 AI 시스템은 유사한 환경에서 촬영된 시연 영상을 필요로 하지만, 실제로는 다른 장소와 시점에서의 시연 영상을 직접 학습할 수 있어야 한다."