본 논문은 단기 비전 변환기(ViT) 모델을 비정형 동영상의 시간적 동작 감지에 효과적으로 적용하는 새로운 메커니즘을 제안한다. 제안하는 ViT-TAD 프레임워크는 내부 백본 정보 전파 모듈과 사후 백본 정보 전파 모듈을 통해 다양한 동영상 조각 간의 세부적인 시간 정보와 전체 맥락을 효과적으로 포착할 수 있다.