Core Concepts
제안하는 "View while Moving" 기법은 기존의 두 단계 방식과 달리 원본 프레임을 한 번만 접근하면서도 단위 수준과 비디오 수준의 시간적 의미를 효과적으로 포착하고 추론할 수 있다.
Abstract
이 논문은 장기 비디오 인식을 위한 새로운 "View while Moving" 패러다임을 제안한다. 기존의 두 단계 방식(미리보기-인식)과 달리, 제안하는 방식은 원본 프레임을 한 번만 접근하면서도 단위 수준과 비디오 수준의 시간적 의미를 효과적으로 포착하고 추론할 수 있다.
구체적으로, 논문에서는 다음과 같은 내용을 다룬다:
지역 단위 로케이터(locator)를 통해 비디오의 의미 단위를 적응적으로 탐색하고 관찰한다.
다중 단위 통합 모듈을 통해 단위 수준의 특징을 종합하여 비디오 수준의 의미를 추론한다.
제안하는 계층적 메커니즘을 통해 단위 수준과 비디오 수준의 시간적 의미를 효과적으로 모델링할 수 있다.
실험 결과, 제안하는 "View while Moving" 기법은 기존 최신 방법들에 비해 장기 비디오와 단기 비디오 모두에서 우수한 정확도-효율 트레이드오프를 달성하였다.
Stats
제안하는 "View while Moving" 기법은 ActivityNet 데이터셋에서 82.4%의 mAP와 38.7 GFLOPs의 성능을 보였다.
FCVID 데이터셋에서는 86.4%의 mAP와 36.4 GFLOPs의 성능을 달성하였다.
Kinetics-Sounds 데이터셋에서는 92.4%의 정확도와 33.8 GFLOPs의 성능을 보였다.
Quotes
"제안하는 "View while Moving" 패러다임은 기존 두 단계 방식과 달리 원본 프레임을 한 번만 접근하면서도 단위 수준과 비디오 수준의 시간적 의미를 효과적으로 포착하고 추론할 수 있다."
"제안하는 계층적 메커니즘을 통해 단위 수준과 비디오 수준의 시간적 의미를 효과적으로 모델링할 수 있다."