이 연구는 비디오 프레임 순서화라는 자기 지도 학습 프록시 태스크를 활용하여 단조 시간 변화를 탐지하고 위치를 파악하는 모델을 제안한다.
모델은 변화가 시간에 따라 단조롭게 증가하거나 감소하는 경우에만 프레임 순서를 정확하게 예측할 수 있다. 이를 통해 계절적 변화나 임의적 변화와 같은 다른 변화는 무시하고 단조 변화만을 탐지할 수 있다.
모델은 변환기 기반 아키텍처를 사용하여 임의 길이의 비디오 시퀀스를 처리할 수 있으며, 변화 위치를 나타내는 어트리뷰션 맵을 출력한다. 이 어트리뷰션 맵은 변화 영역을 세그먼테이션하는 데 사용될 수 있다.
연구진은 다양한 도메인의 비디오 데이터셋에서 실험을 수행했으며, 모델이 단조 변화를 성공적으로 탐지하고 위치를 파악할 수 있음을 보였다. 또한 모델이 기존 변화 탐지 방법보다 우수한 성능을 보였으며, 자기 지도 학습 프록시 태스크 중에서도 가장 좋은 성능을 보였다. 마지막으로 모델이 표준 이미지 순서화 벤치마크에서도 최신 방법을 능가하는 성능을 보였다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문