우리는 1인칭 동영상의 공간적 오디오-비주얼 대응을 기반으로 자기 감독 학습 방법을 제안한다. 우리의 방법은 가려진 바이노럴(다채널) 오디오를 합성하는 마스크 자동 인코딩 프레임워크를 사용하여 두 모달리티 간의 공간적 관계를 학습한다. 우리는 학습된 특징을 사회적 시나리오에서 공간 이해가 필요한 두 가지 다운스트림 비디오 작업, 즉 활성 화자 감지와 공간 오디오 제거에 활용한다.