핵심 개념
다중 채널 모델을 사용하면 단일 채널 모델에 비해 직접-잔향 비율, 명료도, 음성 전달 지수 예측이 향상되며, 계산량은 약 5배 감소한다.
초록
이 연구는 다중 채널 MOSRA(Mean Opinion Score and Room Acoustics) 모델을 제안한다. 기존의 단일 채널 접근법과 달리, 이 모델은 5개의 채널에 대해 동시에 음성 품질 MOS와 실내 음향 매개변수(STI, T60, DRR, C50)를 예측한다.
데이터 생성:
- 실내 음향 시뮬레이터를 사용하여 다중 채널 오디오 데이터를 생성하고, 실내 음향 라벨은 임펄스 응답에서 추출했다.
- MOS 라벨은 wav2vec2 기반 모델을 사용한 교사-학생 설정에서 생성했다.
실험 결과:
- 다중 채널 모델은 단일 채널 모델에 비해 DRR, C50, STI 예측 성능이 향상되었다.
- 계산량은 약 5배 감소했지만 다른 지표의 성능은 최소한의 손실만 있었다.
- 시뮬레이션 데이터로 학습한 모델은 실제 데이터에 대해서도 잘 일반화되었다.
이 연구 결과는 다중 채널 음성 품질 및 실내 음향 예측 모델의 장점을 보여준다. 이를 통해 음질 기반 디바이스 선택 등의 응용 분야에 활용할 수 있다.
통계
시뮬레이션된 데이터의 T60 평균은 0.41초, 표준편차는 0.18초이다.
시뮬레이션된 데이터의 DRR은 거리와 약간의 상관관계만 있다.