본 연구는 비침입형 음성 품질 평가 모델인 MTQ-Net을 제안한다. MTQ-Net은 다중 작업 의사 레이블 학습(MPL) 기반으로 구축되며, 다음과 같은 특징을 가진다:
MPL은 두 단계로 구성된다. 첫째, 사전 학습된 MOSA-Net 모델을 활용하여 PESQ, STOI, SDI 등의 의사 레이블 점수를 얻는다. 둘째, 이 의사 레이블 점수와 3QUEST 지표(S-MOS, N-MOS, G-MOS)의 실제 레이블을 활용하여 다중 작업 학습을 수행한다.
손실 함수로 Huber 손실을 사용하여 MAE와 MSE의 장점을 결합한다. 이를 통해 예측 성능을 향상시킬 수 있다.
실험 결과, MPL 기반의 MTQ-Net이 기존 접근법보다 우수한 예측 성능을 보였다. 또한 Huber 손실 사용이 MAE와 MSE 단독 사용보다 더 나은 성능을 달성했다.
단일 MTQ-Net 모델로 S-MOS, N-MOS, G-MOS를 동시에 예측할 수 있어 효율적이다. 이는 각 지표별로 별도의 모델을 학습해야 하는 기존 접근법과 차별화된다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Ryandhimas E... lúc arxiv.org 03-14-2024
https://arxiv.org/pdf/2308.09262.pdfYêu cầu sâu hơn