객체 정보를 활용하여 오디오-비주얼 표현 학습을 향상시키는 DETECLAP 방법을 제안한다.
대규모 사전 학습된 멀티모달 모델(CLIP, CLAP)의 특징을 활용하여 단순하지만 효과적인 오디오-비주얼 제로샷 학습 모델을 제안한다.
단일 공유 비전 트랜스포머 백본을 사용하여 오디오와 비주얼 입력을 처리함으로써 파라미터 효율성을 높이고 GPU 메모리 사용량을 줄이며, 더 큰 데이터셋과 모델 크기로 확장할 수 있는 오디오-비주얼 사전 학습 모델
오디오-비주얼 대조 학습에서 데이터 증강으로 인한 모달리티 간 대응 관계 왜곡 문제를 해결하기 위해 등가성을 활용하여 강건한 교차 모달 감독을 제공한다.
오디오-비주얼 대조 학습에서 데이터 증강으로 인한 모달리티 간 대응 관계 왜곡을 해결하기 위해 등가성을 활용하는 새로운 프레임워크 EquiAV를 제안한다.