Core Concepts
1인칭 동영상에서 관찰된 과거 프레임을 바탕으로 향후 행동이 시작될 때 상호작용할 객체의 위치를 예측하는 것이 핵심 내용입니다.
Abstract
이 논문은 1인칭 동영상에서 향후 행동이 시작될 때 상호작용할 객체의 위치를 예측하는 문제를 다룹니다. 이를 위해 다음과 같은 접근법을 제안합니다:
관찰된 동영상 세그먼트(길이 τo)와 실제 행동 시작 사이의 시간 간격(길이 τa)을 활용합니다.
객체 탐지기와 비전 트랜스포머를 결합한 인코더 네트워크를 사용하여 프레임 수준의 특징을 추출합니다.
이전 프레임의 특징과 마지막 예측된 활성 객체 위치를 활용하는 트랜스포머 기반 디코더를 통해 향후 프레임의 활성 객체 위치를 예측합니다.
과거 관찰과 현재 활성 객체 예측을 모델링하는 두 개의 손실 함수를 도입합니다.
제안 모델인 T-ANACTO는 EpicKitchens-100, EGTEA+, Ego4D 데이터셋에서 관련 베이스라인 모델들을 능가하는 성능을 보였습니다. 또한 정성적 분석을 통해 모델이 향후 상호작용 가능한 객체에 주목하는 것을 확인할 수 있었습니다.
Stats
관찰된 동영상 세그먼트(길이 τo)와 실제 행동 시작 사이의 시간 간격(길이 τa)은 중요한 요소입니다.
객체 탐지기와 비전 트랜스포머를 결합한 인코더 네트워크가 핵심적인 역할을 합니다.
과거 관찰과 현재 활성 객체 예측을 모델링하는 두 개의 손실 함수가 성능 향상에 기여합니다.
Quotes
"1인칭 동영상에서 향후 행동이 시작될 때 상호작용할 객체의 위치를 예측하는 것은 매우 어려운 문제입니다."
"제안 모델인 T-ANACTO는 관련 베이스라인 모델들을 능가하는 성능을 보였습니다."