본 연구는 비침입형 음성 품질 평가 모델인 MTQ-Net을 제안한다. MTQ-Net은 다중 작업 의사 레이블 학습(MPL) 기반으로 구축되며, 다음과 같은 특징을 가진다:
MPL은 두 단계로 구성된다. 첫째, 사전 학습된 MOSA-Net 모델을 활용하여 PESQ, STOI, SDI 등의 의사 레이블 점수를 얻는다. 둘째, 이 의사 레이블 점수와 3QUEST 지표(S-MOS, N-MOS, G-MOS)의 실제 레이블을 활용하여 다중 작업 학습을 수행한다.
손실 함수로 Huber 손실을 사용하여 MAE와 MSE의 장점을 결합한다. 이를 통해 예측 성능을 향상시킬 수 있다.
실험 결과, MPL 기반의 MTQ-Net이 기존 접근법보다 우수한 예측 성능을 보였다. 또한 Huber 손실 사용이 MAE와 MSE 단독 사용보다 더 나은 성능을 달성했다.
단일 MTQ-Net 모델로 S-MOS, N-MOS, G-MOS를 동시에 예측할 수 있어 효율적이다. 이는 각 지표별로 별도의 모델을 학습해야 하는 기존 접근법과 차별화된다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania