Core Concepts
시간 간격을 활용하여 장기 비디오에서 오디오와 비주얼 이벤트를 효과적으로 인식하는 모델 제안
Abstract
이 논문은 시간 간격을 활용하여 장기 비디오에서 오디오와 비주얼 이벤트를 효과적으로 인식하는 Time Interval Machine(TIM) 모델을 제안한다.
주요 내용은 다음과 같다:
- 시간 간격을 쿼리로 사용하여 장기 비디오에서 발생하는 오디오와 비주얼 이벤트를 인식한다.
- 시간 간격 정보를 인코딩하는 Time Interval MLP를 제안하여 시간 간격의 위치와 지속 시간을 효과적으로 학습한다.
- 오디오와 비주얼 모달리티 간의 상호작용을 활용하여 성능을 향상시킨다.
- EPIC-KITCHENS, EPIC-SOUNDS, AVE, Perception Test 데이터셋에서 SOTA 성능을 달성한다.
- 시간 간격 인코딩의 중요성을 정량적/정성적으로 분석한다.
Stats
장기 비디오에서 오디오와 비주얼 이벤트의 시간 간격이 서로 다르다.
시간 간격을 정확하게 인코딩하는 것이 중요하다. 시간 간격을 잘못 추정하면 성능이 크게 떨어진다.
특히 짧은 이벤트의 경우 시간 간격 추정 오류에 더 민감하다.
Quotes
"Diverse actions give rise to rich audio-visual signals in long videos. Recent works showcase that the two modalities of audio and video exhibit different temporal extents of events and distinct labels."
"We address the interplay between the two modalities in long videos by explicitly modelling the temporal extents of audio and visual events."