Core Concepts
오디오-비주얼 대조 학습에서 데이터 증강으로 인한 모달리티 간 대응 관계 왜곡 문제를 해결하기 위해 등가성을 활용하여 강건한 교차 모달 감독을 제공한다.
Abstract
이 논문은 오디오-비주얼 대조 학습에 등가성을 적용하는 EquiAV 프레임워크를 제안한다. 오디오-비주얼 대조 학습에서 데이터 증강은 모달리티 간 대응 관계를 쉽게 왜곡할 수 있어 활용이 제한적이었다. EquiAV는 이 문제를 해결하기 위해 다음과 같은 방법을 제안한다:
단일 모달 잠재 공간에서 변환 예측기를 통해 증강 관련 정보를 학습하여 표현 능력을 향상시킨다.
단일 모달 잠재 공간에서 학습한 등가성을 공유 변환 예측기를 통해 교차 모달 잠재 공간으로 전이한다.
등가 표현의 중심을 계산하여 교차 모달 대조 학습에 활용함으로써 풍부한 교차 모달 표현을 학습하면서도 증강의 부작용을 줄인다.
주목 기반 변환 예측기를 설계하여 매개변수화된 증강 벡터를 잠재 공간에 효과적으로 인코딩한다.
이러한 방법을 통해 EquiAV는 오디오-비주얼 이벤트 분류와 제로샷 오디오-비주얼 검색 등의 벤치마크에서 기존 방법들을 뛰어넘는 성능을 달성한다.
Stats
오디오-비주얼 이벤트 분류 과제에서 AudioSet-20K 데이터셋의 오디오 전용 mAP 42.4%, 비주얼 전용 mAP 25.7%, 오디오-비주얼 mAP 46.6%를 달성했다.
제로샷 오디오-비주얼 검색 과제에서 AudioSet 데이터셋의 비디오-오디오 R@1 30.1%, 오디오-비디오 R@1 29.6%를 달성했다.
Quotes
"오디오-비주얼 대조 학습에서 데이터 증강은 모달리티 간 대응 관계를 쉽게 왜곡할 수 있어 활용이 제한적이었다."
"EquiAV는 단일 모달 잠재 공간에서 학습한 등가성을 공유 변환 예측기를 통해 교차 모달 잠재 공간으로 전이한다."
"등가 표현의 중심을 계산하여 교차 모달 대조 학습에 활용함으로써 풍부한 교차 모달 표현을 학습하면서도 증강의 부작용을 줄인다."