핵심 개념
본 논문은 비디오 내 액션의 시간적 스케일 변화에 대한 문제를 해결하기 위해 비디오 자기 스티칭 그래프 네트워크(VSGN)를 제안한다. VSGN은 비디오 자기 스티칭(VSS)과 크로스 스케일 그래프 피라미드 네트워크(xGPN)로 구성되며, 서로 다른 스케일의 특징을 활용하여 특히 짧은 액션의 위치 추정 성능을 향상시킨다.
초록
본 논문은 비디오 내 액션의 시간적 스케일 변화에 대한 문제를 해결하기 위해 비디오 자기 스티칭 그래프 네트워크(VSGN)를 제안한다.
VSGN의 주요 구성 요소는 다음과 같다:
- 비디오 자기 스티칭(VSS):
- 비디오 클립의 일부분을 확대하여 더 큰 시간적 스케일의 클립을 생성
- 원본 클립과 확대 클립을 하나의 입력 시퀀스로 연결
- 크로스 스케일 그래프 피라미드 네트워크(xGPN):
- 다중 수준의 인코더와 디코더 피라미드로 구성
- 각 수준의 인코더에는 크로스 스케일 그래프 네트워크(xGN) 모듈이 포함
- xGN 모듈은 시간적 브랜치와 그래프 브랜치를 통해 동일 스케일 및 크로스 스케일 특징을 집계
VSGN은 서로 다른 스케일의 특징을 활용하여 특히 짧은 액션의 위치 추정 성능을 향상시킨다. 실험 결과, VSGN은 THUMOS-14와 ActivityNet-v1.3 데이터셋에서 기존 최고 성능을 뛰어넘는 결과를 보였다.
통계
액션 지속 시간이 30초 이하인 액션이 전체 액션의 54.4%를 차지한다.
THUMOS-14 데이터셋에서 액션 지속 시간이 30초 이하인 액션이 전체 액션의 99.7%를 차지한다.
인용구
"Why are short actions hard to localize? Short actions have small temporal scales with fewer frames, and therefore, their information is prone to loss or distortion throughout a deep neural network."
"Up-scaling a video could transform a short action into a long one, but may lose important information for localization. Thus both the original scale and the enlarged scale have their limitations and advantages."