본 논문은 비디오 내 액션의 시간적 스케일 변화에 대한 문제를 해결하기 위해 비디오 자기 스티칭 그래프 네트워크(VSGN)를 제안한다. VSGN은 비디오 자기 스티칭(VSS)과 크로스 스케일 그래프 피라미드 네트워크(xGPN)로 구성되며, 서로 다른 스케일의 특징을 활용하여 특히 짧은 액션의 위치 추정 성능을 향상시킨다.