이 논문은 1인칭 동영상에서 오디오와 비전의 공간적 대응을 학습하는 자기 감독 방법을 제안한다. 주요 내용은 다음과 같다:
마스크 자동 인코딩 프레임워크를 사용하여 비디오와 오디오의 시너지를 통해 가려진 바이노럴(다채널) 오디오를 합성하도록 모델을 학습한다. 이를 통해 두 모달리티 간의 공간적 관계를 학습한다.
학습된 특징을 사회적 시나리오에서 공간 이해가 필요한 두 가지 다운스트림 비디오 작업, 즉 활성 화자 감지와 공간 오디오 제거에 활용한다.
실험을 통해 제안 방법이 기존 SOTA 모델들을 크게 능가함을 보인다. 이는 제안 방법이 공간적 특징을 효과적으로 학습할 수 있음을 시사한다.
시각화를 통해 모델이 공간적 오디오-비주얼 단서를 활용하여 중요한 영역에 주목하는 것을 확인할 수 있다.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Sagnik Majum... klo arxiv.org 04-16-2024
https://arxiv.org/pdf/2307.04760.pdfSyvällisempiä Kysymyksiä