Grunnleggende konsepter
본 논문은 단기 비전 변환기(ViT) 모델을 비정형 동영상의 시간적 동작 감지에 효과적으로 적용하는 새로운 메커니즘을 제안한다. 제안하는 ViT-TAD 프레임워크는 내부 백본 정보 전파 모듈과 사후 백본 정보 전파 모듈을 통해 다양한 동영상 조각 간의 세부적인 시간 정보와 전체 맥락을 효과적으로 포착할 수 있다.
Sammendrag
본 논문은 비정형 동영상의 시간적 동작 감지(TAD) 문제를 다룬다. 대부분의 TAD 방법은 사전 학습된 동작 인식 네트워크(백본)를 사용하여 각 동영상 조각의 단기 특징을 추출한 후 TAD 헤드를 적용하는 방식이다. 최근 변환기 모델이 동작 인식에서 효과적으로 사용되고 있지만, 변환기 백본을 TAD에 직접 적용하는 것은 도전과제가 있다.
이를 해결하기 위해 본 논문은 ViT-TAD라는 새로운 메커니즘을 제안한다. ViT-TAD는 내부 백본 정보 전파 모듈과 사후 백본 정보 전파 모듈을 통해 다양한 동영상 조각 간의 시간 정보와 전체 맥락을 효과적으로 포착할 수 있다. 내부 백본 정보 전파 모듈은 다중 조각 시간 특징 상호작용을 가능하게 하고, 사후 백본 정보 전파 모듈은 전역 시간 맥락을 추가로 모델링한다.
실험 결과, 제안하는 ViT-TAD는 THUMOS14, ActivityNet-1.3 및 FineAction 데이터셋에서 기존 최첨단 TAD 방법을 능가하는 성능을 보여준다. 이를 통해 ViT-TAD가 비정형 동영상의 시간적 동작 감지를 위한 새로운 기준선이 될 수 있음을 입증한다.
Statistikk
비정형 동영상에서 동작 감지 성능이 THUMOS14 데이터셋에서 평균 mAP 69.5%를 달성하여 기존 최첨단 방법을 능가한다.
ActivityNet-1.3 데이터셋에서 평균 mAP 37.40%를 달성하여 경쟁력 있는 성능을 보여준다.
FineAction 데이터셋에서 평균 mAP 17.20%를 달성하여 우수한 성능을 보여준다.
Sitater
"본 논문은 단기 비전 변환기(ViT) 모델을 비정형 동영상의 시간적 동작 감지에 효과적으로 적용하는 새로운 메커니즘을 제안한다."
"제안하는 ViT-TAD 프레임워크는 내부 백본 정보 전파 모듈과 사후 백본 정보 전파 모듈을 통해 다양한 동영상 조각 간의 세부적인 시간 정보와 전체 맥락을 효과적으로 포착할 수 있다."