이 논문은 약한 감독 비디오 이상 탐지(WSVAD) 문제를 해결하기 위한 새로운 프레임워크를 제안한다.
CLIP 모델의 강력한 텍스트-이미지 정렬 능력을 활용하여 비디오 이벤트 설명 텍스트와 비디오 프레임을 정렬한다. 이를 위해 두 개의 순위 손실과 분포 불일치 손실을 사용하여 CLIP 텍스트 인코더를 미세 조정한다.
학습 가능한 텍스트 프롬프트와 정상성 시각 프롬프트 메커니즘을 도입하여 텍스트와 비디오 프레임의 정렬 정확도를 더 높인다.
정상성 가이드를 활용한 의사 레이블 생성 모듈을 설계하여 비정상 비디오 프레임에 대한 신뢰할 수 있는 의사 레이블을 생성한다.
시간 의존성을 더 유연하고 정확하게 학습하기 위해 시간 문맥 자기 적응 학습 모듈을 도입한다.
이러한 접근법을 통해 UCF-Crime과 XD-Violence 벤치마크 데이터셋에서 최신 기술 수준을 뛰어넘는 성능을 달성했다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania