Core Concepts
본 연구에서는 음향 이벤트 탐지, 위치 추정 및 거리 추정을 동시에 수행하는 방법을 제안한다. 두 가지 접근법을 연구하였는데, 하나는 다중 작업 접근법이고 다른 하나는 확장된 multi-ACCDOA 방법이다. 이를 통해 음원의 완전한 3D 위치 정보를 얻을 수 있다.
Abstract
본 연구는 음향 이벤트 탐지, 위치 추정 및 거리 추정을 동시에 수행하는 방법을 제안한다. 두 가지 접근법을 연구하였다:
-
다중 작업 접근법: 음향 이벤트 탐지 및 위치 추정과 거리 추정을 별도의 모델 출력으로 처리하는 방식이다. 다양한 손실 함수를 적용하여 성능을 평가하였다.
-
Multi-ACCDDOA 방법: 기존의 multi-ACCDOA 방식을 확장하여 거리 정보를 포함하는 방식이다. 이를 통해 단일 작업으로 3D 음원 위치 정보를 추정할 수 있다.
실험은 Ambisonic과 바이노럴 오디오 데이터셋에서 수행되었다. 결과적으로 multi-ACCDDOA 방식에 MSE 손실 함수를 사용했을 때 가장 좋은 성능을 보였다. 그러나 거리 추정 성능은 MAE 손실 함수를 사용했을 때 더 우수했다. 향후 연구에서는 SELD와 거리 추정을 위한 혼합 손실 함수를 제안할 계획이다.
Stats
음향 이벤트 탐지와 위치 추정 성능이 바이노럴 데이터에서 Ambisonic 데이터보다 크게 저하되었다.
바이노럴 데이터에서 오류율은 0.82-0.87, F1 점수는 16.5-20.0%로 나타났다.
바이노럴 데이터에서 DOA 오차는 38.1-41.1°, 위치 추정 재현율은 36.7-45.6%로 나타났다.
거리 추정 성능은 바이노럴 데이터에서 0.98-1.04m의 오차를 보여 Ambisonic 데이터와 큰 차이가 없었다.
Quotes
"Sound Event Detection and Localization (SELD) is a combined task of identifying sound events and their correspond-ing direction-of-arrival (DOA). While this task has numerous applications and has been extensively researched in recent years, it fails to provide full information about the sound source position."
"In this paper, we overcome this problem by extending the task to Sound Event Detection, Localization with Distance Estimation (3D SELD)."