Core Concepts
대규모 기반 모델을 활용한 데이터 증강 기법인 HaVTR은 비디오-텍스트 검색 성능을 크게 향상시킨다.
Abstract
이 논문은 비디오-텍스트 검색 성능 향상을 위해 대규모 기반 모델을 활용한 데이터 증강 기법인 HaVTR을 제안한다.
기존 비디오-텍스트 검색 모델들은 데이터의 한계로 인해 성능이 제한적이었다.
HaVTR은 3가지 데이터 증강 방법을 제안한다:
단순 증강: 프레임/단어 랜덤 복사/삭제
텍스트 문장 바꾸기 및 비디오 스타일 변경: 대규모 언어 모델과 비주얼 생성 모델 활용
환상 생성: 대규모 모델을 활용해 원본 데이터에 새로운 관련 정보 추가
이를 통해 데이터의 다양성과 풍부성을 높여 비디오-텍스트 검색 성능을 크게 향상시켰다.
실험 결과, HaVTR은 MSR-VTT, MSVD, ActivityNet 벤치마크에서 기존 최고 성능을 크게 뛰어넘는 새로운 최고 성과를 달성했다.
Stats
비디오-텍스트 검색 성능 지표 Recall@1이 MSR-VTT에서 60.8(텍스트-비디오) 및 60.6(비디오-텍스트)를 달성했다.
MSVD에서는 Recall@1이 61.6(텍스트-비디오) 및 71.3(비디오-텍스트)를 기록했다.
ActivityNet에서는 Recall@1이 59.1(텍스트-비디오) 및 58.4(비디오-텍스트)를 달성했다.
Quotes
"HaVTR은 비디오-텍스트 검색 성능을 크게 향상시킨다."
"HaVTR은 3가지 데이터 증강 방법을 제안한다: 단순 증강, 텍스트 문장 바꾸기 및 비디오 스타일 변경, 환상 생성."
"실험 결과, HaVTR은 MSR-VTT, MSVD, ActivityNet 벤치마크에서 기존 최고 성능을 크게 뛰어넘는 새로운 최고 성과를 달성했다."