核心概念
본 연구에서는 음향 이벤트 탐지, 위치 추정 및 거리 추정을 동시에 수행할 수 있는 통합 모델을 제안한다. 다중 작업 접근법과 확장된 multi-ACCDOA 방식을 비교 분석하여 최적의 모델 구조와 손실 함수를 도출한다.
要約
본 연구는 음향 이벤트 탐지, 위치 추정 및 거리 추정을 통합적으로 수행하는 방법을 제안한다. 두 가지 접근법을 비교 분석하였다:
- 다중 작업 접근법: 음향 이벤트 탐지/위치 추정과 거리 추정을 별도의 출력 브랜치로 모델링한다.
- 확장된 multi-ACCDOA 방식: 기존의 multi-ACCDOA 방식을 확장하여 거리 정보를 포함한 통합 출력을 생성한다.
각 접근법에 대해 다양한 손실 함수를 적용하여 성능을 비교하였다. 실험은 Ambisonic 및 바이노럴 오디오 데이터셋에서 수행되었다.
실험 결과, multi-ACCDOA 방식에 MSE 손실 함수를 적용한 모델이 가장 우수한 음향 이벤트 탐지 및 위치 추정 성능을 보였다. 반면, 거리 추정 성능은 MAE 손실 함수를 사용한 모델이 가장 우수하였다. 이는 SELD와 거리 추정 간 최적의 손실 함수가 다름을 시사한다. 향후 연구에서는 이 두 작업을 균형있게 학습할 수 있는 혼합 손실 함수 또는 새로운 모델 구조를 제안할 필요가 있다.
統計
음향 이벤트 탐지와 위치 추정을 위한 MSE 손실 함수 사용 시, Ambisonic 데이터에서 오류율 0.65, F1 점수 44.2%, 방향 오차 22.9°, 위치 재현율 68.4%를 달성했다.
거리 추정을 위한 MAE 손실 함수 사용 시, Ambisonic 데이터에서 거리 오차 0.74m를 달성했다.
바이노럴 데이터에서는 전반적인 성능이 저하되었지만, 거리 추정 성능은 Ambisonic 데이터와 유사한 수준을 유지했다.
引用
"본 연구에서는 음향 이벤트 탐지, 위치 추정 및 거리 추정을 동시에 수행할 수 있는 통합 모델을 제안한다."
"실험 결과, multi-ACCDOA 방식에 MSE 손실 함수를 적용한 모델이 가장 우수한 음향 이벤트 탐지 및 위치 추정 성능을 보였다."
"거리 추정 성능은 MAE 손실 함수를 사용한 모델이 가장 우수하였다."