Core Concepts
오디오-비주얼 대조 학습에서 데이터 증강으로 인한 모달리티 간 대응 관계 왜곡을 해결하기 위해 등가성을 활용하는 새로운 프레임워크 EquiAV를 제안한다.
Abstract
이 논문은 오디오-비주얼 대조 학습에 등가성을 적용하는 새로운 프레임워크 EquiAV를 제안한다.
먼저 오디오-비주얼 대조 학습에서 데이터 증강의 이점을 충분히 활용하지 못하는 문제를 지적한다. 데이터 증강은 모달리티 간 대응 관계를 쉽게 왜곡시킬 수 있기 때문이다.
이를 해결하기 위해 EquiAV는 다음과 같은 방법을 제안한다:
단일 모달리티 잠재 공간에서 등가성을 학습하여 증강 관련 정보를 인코딩한다.
공유 변환 예측기를 통해 단일 모달리티 잠재 공간의 등가성을 inter-modal 잠재 공간으로 전이한다.
등가 표현의 중심을 계산하여 inter-modal 대조 학습에 활용함으로써 증강의 부작용을 줄이면서도 풍부한 joint 표현을 학습한다.
주목 기반 변환 예측기를 설계하여 매개변수화된 증강 벡터를 잠재 공간에 효과적으로 인코딩한다.
이러한 접근법을 통해 EquiAV는 기존 오디오-비주얼 자기지도 학습 방법들을 뛰어넘는 성능을 보인다.
Stats
오디오-비주얼 이벤트 분류 성능 (AudioSet-20K mAP):
오디오 모달리티: 42.4%
비주얼 모달리티: 25.7%
오디오-비주얼 모달리티: 46.6%
제로샷 오디오-비주얼 검색 성능 (AudioSet R@1):
비디오 → 오디오: 30.1%
오디오 → 비디오: 29.6%
Quotes
"데이터 증강은 모달리티 간 대응 관계를 쉽게 왜곡시킬 수 있기 때문에 오디오-비주얼 대조 학습에 충분히 활용되지 못했다."
"EquiAV는 단일 모달리티 잠재 공간의 등가성을 inter-modal 잠재 공간으로 전이하여 증강의 부작용을 줄이면서도 풍부한 joint 표현을 학습한다."