Core Concepts
대규모 사전 학습된 멀티모달 모델(CLIP, CLAP)의 특징을 활용하여 단순하지만 효과적인 오디오-비주얼 제로샷 학습 모델을 제안한다.
Abstract
이 논문은 오디오-비주얼 제로샷 학습(GZSL) 문제를 다룬다. 기존 연구에서는 사전 학습된 오디오 및 비주얼 분류 모델의 특징을 사용했지만, 이는 최신 기술을 반영하지 않는다. 이 논문에서는 CLIP과 CLAP과 같은 대규모 사전 학습된 멀티모달 모델의 특징을 활용한다.
제안하는 모델은 다음과 같은 특징을 가진다:
CLIP의 비주얼 특징과 CLAP의 오디오 특징을 사용한다.
CLIP과 CLAP의 텍스트 인코더를 활용하여 두 개의 클래스 레이블 임베딩을 결합한다.
단순한 피드포워드 신경망 구조를 사용하며, 복잡한 아키텍처나 손실 함수를 사용하지 않는다.
실험 결과, 제안하는 모델은 VGGSound-GZSLcls, UCF-GZSLcls, ActivityNet-GZSLcls 데이터셋에서 기존 최신 방법들을 능가하는 성능을 보였다. 또한 정성적 분석에서도 학습된 임베딩 공간에서 잘 분리된 클러스터링 결과를 보였다.
Stats
오디오-비주얼 입력 특징은 CLIP과 CLAP 모델에서 추출한다.
CLIP 텍스트 인코더에서 추출한 512차원 텍스트 임베딩과 CLAP 텍스트 인코더에서 추출한 1024차원 텍스트 임베딩을 결합하여 사용한다.