오디오-비주얼 대조 학습에서 데이터 증강으로 인한 모달리티 간 대응 관계 왜곡을 해결하기 위해 등가성을 활용하는 새로운 프레임워크 EquiAV를 제안한다.
오디오-비주얼 대조 학습에서 데이터 증강으로 인한 모달리티 간 대응 관계 왜곡 문제를 해결하기 위해 등가성을 활용하여 강건한 교차 모달 감독을 제공한다.