CLIP 모델의 강력한 텍스트-이미지 정렬 능력을 활용하여 비디오 이벤트 설명 텍스트와 비디오 프레임을 정렬하고, 정상성 가이드를 통해 신뢰할 수 있는 의사 레이블을 생성하는 새로운 프레임워크를 제안한다. 또한 시간 의존성을 더 유연하고 정확하게 학습하기 위해 시간 문맥 자기 적응 학습 모듈을 도입한다.