핵심 개념
본 연구는 다중 작업 의사 레이블 학습(MPL) 기반의 비침입형 음성 품질 평가 모델인 MTQ-Net을 제안한다. MPL은 사전 학습된 모델에서 얻은 의사 레이블 점수와 다중 작업 학습을 통해 3QUEST 지표(S-MOS, N-MOS, G-MOS)를 예측한다. 실험 결과는 MPL이 기존 접근법보다 우수한 예측 성능을 보여줌을 확인했다.
초록
본 연구는 비침입형 음성 품질 평가 모델인 MTQ-Net을 제안한다. MTQ-Net은 다중 작업 의사 레이블 학습(MPL) 기반으로 구축되며, 다음과 같은 특징을 가진다:
MPL은 두 단계로 구성된다. 첫째, 사전 학습된 MOSA-Net 모델을 활용하여 PESQ, STOI, SDI 등의 의사 레이블 점수를 얻는다. 둘째, 이 의사 레이블 점수와 3QUEST 지표(S-MOS, N-MOS, G-MOS)의 실제 레이블을 활용하여 다중 작업 학습을 수행한다.
손실 함수로 Huber 손실을 사용하여 MAE와 MSE의 장점을 결합한다. 이를 통해 예측 성능을 향상시킬 수 있다.
실험 결과, MPL 기반의 MTQ-Net이 기존 접근법보다 우수한 예측 성능을 보였다. 또한 Huber 손실 사용이 MAE와 MSE 단독 사용보다 더 나은 성능을 달성했다.
단일 MTQ-Net 모델로 S-MOS, N-MOS, G-MOS를 동시에 예측할 수 있어 효율적이다. 이는 각 지표별로 별도의 모델을 학습해야 하는 기존 접근법과 차별화된다.
통계
음성 품질 예측 시 실제 레이블과 예측값의 평균 제곱 오차(MSE)가 0.043으로 낮게 나타났다.
음성 품질 예측 시 실제 레이블과 예측값의 선형 상관 계수(LCC)가 0.912로 높게 나타났다.
음성 품질 예측 시 실제 레이블과 예측값의 Spearman 순위 상관 계수(SRCC)가 0.903으로 높게 나타났다.
인용구
"MPL은 사전 학습된 MOSA-Net 모델에서 얻은 의사 레이블 점수와 3QUEST 지표의 실제 레이블을 활용하여 다중 작업 학습을 수행한다."
"Huber 손실은 MAE와 MSE의 장점을 결합하여 예측 성능을 향상시킬 수 있다."
"단일 MTQ-Net 모델로 S-MOS, N-MOS, G-MOS를 동시에 예측할 수 있어 효율적이다."