Alapfogalmak
Whisper 모델의 음성 특징을 활용하여 음성 품질 및 명료도 예측 성능을 향상시킨 MOSA-Net+ 모델을 제안한다.
Kivonat
이 연구는 Whisper 모델의 음성 특징을 활용하여 음성 품질 및 명료도 예측 성능을 향상시킨 MOSA-Net+ 모델을 제안한다.
MOSA-Net+는 기존 MOSA-Net 모델에 Whisper 모델의 특징을 추가로 활용하여 성능을 개선하였다.
Whisper 모델은 대규모 약한 감독 학습을 통해 생성된 음성 특징을 제공하며, 이를 통해 MOSA-Net+의 예측 성능이 향상되었다.
MOSA-Net+는 TMHINT-QI 데이터셋에서 기존 방법들에 비해 우수한 성능을 보였으며, VoiceMOS Challenge 2023의 노이즈 및 향상 트랙에서도 최고 성능을 달성하였다.
Whisper 모델과 SSL 모델의 특징을 결합하는 것은 성능 향상에 크게 기여하지 않았으며, Whisper 단독 사용만으로도 우수한 성능을 보였다.
이 연구 결과는 Whisper 모델이 음성 평가 분야에서 강력한 음성 특징을 제공할 수 있음을 보여준다.
Statisztikák
음성 품질 예측 MSE는 Whisper 모델 사용 시 0.344로 가장 낮았다.
음성 명료도 예측 MSE는 Whisper 모델 사용 시 0.017로 가장 낮았다.
VoiceMOS Challenge 2023에서 MOSA-Net+는 모든 평가 지표에서 가장 우수한 성능을 보였다.
Idézetek
"Whisper 모델의 음성 특징을 활용하여 MOSA-Net+ 모델의 성능을 향상시킬 수 있다."
"Whisper 모델과 SSL 모델의 특징을 결합하는 것은 성능 향상에 크게 기여하지 않았다."
"MOSA-Net+는 VoiceMOS Challenge 2023에서 최고 성능을 달성하였다."