Основные понятия
본 연구는 사전 학습된 대규모 언어 모델과 비전-언어 모델을 활용하여 훈련 없이 비디오 이상 탐지를 수행하는 새로운 방법을 제안한다.
Аннотация
본 연구는 기존의 비디오 이상 탐지 방법들이 모두 훈련 기반이라는 점에 주목하고, 이를 극복하기 위해 사전 학습된 대규모 언어 모델(LLM)과 비전-언어 모델(VLM)을 활용하는 새로운 접근법을 제안한다.
제안하는 LAVAD 방법은 다음과 같은 3가지 주요 구성 요소로 이루어진다:
- 이미지-텍스트 캡션 정제: VLM을 활용하여 비디오 프레임에 대한 캡션을 정제하여 노이즈를 제거한다.
- LLM 기반 이상 점수 산출: LLM을 활용하여 프레임 단위의 시간적 요약을 생성하고, 이를 바탕으로 이상 점수를 산출한다.
- 비디오-텍스트 점수 정제: 프레임 간 시맨틱 유사도를 활용하여 이상 점수를 추가로 정제한다.
실험 결과, LAVAD는 기존의 훈련 기반 비디오 이상 탐지 방법들과 비교하여 UCF-Crime과 XD-Violence 데이터셋에서 우수한 성능을 보였다. 특히, 비지도 학습 및 one-class 방법들을 크게 능가하는 성과를 달성하였다.
Статистика
비디오 이상 탐지는 정상 패턴에서 크게 벗어나는 이벤트를 시간적으로 탐지하는 것을 목표로 한다.
기존 방법들은 모두 훈련 과정이 필요하며, 이는 도메인 특화 및 데이터 수집의 어려움 등의 한계가 있다.
Цитаты
"Crucially, every existing method necessitates a training procedure to establish an accurate VAD system, and this entails some limitations."
"Developing a training-free VAD model is hard due to the lack of explicit visual priors on the target setting. However, such priors might be drawn using large foundation models, renowned for their generalization capability and wide knowledge encapsulation."