核心概念
본 연구는 학습 데이터 없이도 비디오에서 동작을 효과적으로 인식할 수 있는 새로운 접근법을 제안한다. 기존 방식과 달리 학습 데이터 없이도 비디오 스트림을 활용하여 동작을 인식할 수 있다.
要約
이 논문은 제로샷 시간 동작 인식(ZS-TAL) 문제에 대한 새로운 접근법을 제안한다. 기존 ZS-TAL 방법은 학습 데이터를 필요로 하지만, 이는 실제 응용 분야에서 제한적일 수 있다. 이에 저자들은 학습 데이터 없이도 동작을 인식할 수 있는 방법인 T3AL(Test Time Adaptation for Temporal Action Localization)을 제안한다.
T3AL은 다음 3단계로 구성된다:
- 비디오 수준의 의사 레이블 생성: 전체 비디오의 정보를 활용하여 동작 카테고리에 대한 의사 레이블을 계산한다.
- 자기 지도 학습 기반 예측 개선: 긍정적/부정적 샘플을 활용하여 동작 영역 예측을 개선한다.
- 텍스트 기반 영역 억제: 캡션 모델을 활용하여 잘못 예측된 동작 영역을 억제한다.
실험 결과, T3AL은 기존 제로샷 방법 대비 THUMOS14에서 6.3%, ActivityNet-v1.3에서 13.5% 향상된 성능을 보였다. 또한 오라클 실험을 통해 T3AL이 학습 데이터 없이도 기존 최신 모델 수준의 성능을 달성할 수 있음을 확인했다.
統計
비디오 수준 의사 레이블은 전체 비디오의 평균 프레임 표현과 텍스트 표현 간 코사인 유사도를 최대화하여 계산한다.
긍정 샘플은 의사 레이블과 유사한 프레임, 부정 샘플은 그렇지 않은 프레임에서 선택한다.
텍스트 기반 영역 억제는 각 예측 영역의 텍스트 표현 간 유사도를 활용하여 수행한다.
引用
"기존 ZS-TAL 방법은 학습 데이터를 필요로 하지만, 이는 실제 응용 분야에서 제한적일 수 있다."
"T3AL은 학습 데이터 없이도 비디오 스트림을 활용하여 동작을 효과적으로 인식할 수 있다."
"T3AL은 기존 제로샷 방법 대비 THUMOS14에서 6.3%, ActivityNet-v1.3에서 13.5% 향상된 성능을 보였다."