Core Concepts
가상 환경에서 음원 위치를 특정 위치로 추정하기 위해 물리적으로 기반한 음향 전파 시뮬레이션과 기계 학습 방법을 활용한다.
Abstract
이 연구에서는 가상 3D 환경 내에서 수신된 음향을 시뮬레이션하기 위해 SoundSpace2.0 프레임워크와 Habitat-Sim, Habitat-Lab 시뮬레이션 엔진을 활용한다. 모든 가능한 음원 및 수신기 위치를 시뮬레이션하여 충분한 데이터를 생성하고, 이를 활용해 오디오 스펙트로그램을 학습 데이터로 사용하는 기계 학습 모델을 훈련한다.
실험 결과, 좌표 기반 예측보다 공간 영역 기반 분류가 더 나은 성능을 보였다. 이는 공간 영역 분류가 좌표 예측보다 더 큰 허용 오차를 가지며, 공간 내 특징적인 잔향음을 활용할 수 있기 때문으로 보인다. 또한 사전 학습된 오디오 스펙트로그램 변환기(AST) 모델이 합성곱 신경망(CNN) 모델보다 더 우수한 성능을 보였는데, 이는 AST 모델이 상대적 위치 정보를 더 잘 학습했기 때문으로 추정된다.
향후 연구 방향으로는 동적 시나리오에 대한 적응, 혼합 음원에 대한 분리, 실제 오디오의 잔향 제거, 실제 건물 청사진을 기반으로 한 3D 가상 환경 구축 등이 있다.
Stats
음원 위치 예측 정확도가 50% 이상인 경우 음원으로부터 3.4m 이내에 있다.
AST 모델의 F1 점수는 0.786 ± 0.014, 정밀도는 0.812 ± 0.013, 재현율은 0.784 ± 0.015이다.
CNN 모델의 F1 점수는 0.594 ± 0.019, 정밀도는 0.626 ± 0.031, 재현율은 0.656 ± 0.027이다.