المفاهيم الأساسية
본 논문에서는 풍부하게 존재하는 VR 컨텐츠를 활용한 자기 지도 학습 방식을 통해 사운드 이벤트 위치 추정 및 감지(SELD) 작업의 성능을 향상시키는 DOA 인식 시청각 자기 지도 학습 방법을 제안합니다.
الملخص
DOA 인식 시청각 자기 지도 학습 기반 사운드 이벤트 위치 추정 및 감지
본 논문은 1인칭 시점(FOA) 마이크를 통해 캡처된 공간 오디오 레코딩에서 사운드 이벤트의 활성화, 클래스 및 방향(DOA)을 추정하는 SELD 작업의 성능 향상을 목표로 합니다. 특히, 레이블이 지정된 데이터 부족 문제를 해결하기 위해 풍부하게 존재하는 VR 컨텐츠를 활용한 자기 지도 학습 방식을 제안합니다.
본 논문에서는 DOA 인식 시청각 자기 지도 학습(AV-SSL) 기반의 새로운 SELD 방법을 제안합니다.
DOA 인식 AV-SSL
오디오 인코딩: FOA 오디오 데이터에서 사운드 이벤트 클래스와 DOA를 나타내는 잠재 오디오 특징을 추출하기 위해 ResNet-Conformer 기반 오디오 특징 추출기 A를 사용합니다. 추출된 특징은 투영 헤드 H를 통해 DOA 그리드에 대한 오디오 임베딩으로 변환됩니다.
비주얼 인코딩: 360도 등방향 비주얼 데이터에서 DOA 그리드에 해당하는 로컬 이미지들을 추출하고, 비주얼 인코더 V를 사용하여 각 DOA에 대한 임베딩을 생성합니다.
자기 지도 학습: 오디오 및 비주얼 임베딩 간의 유사도를 최대화하는 방식으로 A, H, V를 공동으로 학습합니다. 본 논문에서는 DOA별 유사도를 기반으로 하는 DOA별 대조 학습과 전체 레코딩에 대한 유사도를 기반으로 하는 레코딩별 대조 학습, 두 가지 변형을 제안합니다.
지도 학습: 레이블이 지정된 데이터를 사용하여 A를 SELD 작업에 맞게 미세 조정합니다.