핵심 개념
본 논문에서는 다양한 음성 품질 평가 모델의 일반화 능력을 벤치마킹하기 위한 데이터셋인 MOS-Bench를 소개하고, 다중 데이터셋 학습을 통해 모델의 일반화 능력을 향상시키는 방법을 제시합니다.
초록
MOS-Bench: 주관적 음성 품질 평가 모델의 일반화 능력 벤치마킹
본 연구는 다양한 음성 품질 평가 모델의 일반화 능력을 벤치마킹하고, 다중 데이터셋 학습을 통해 모델의 성능을 향상시키는 것을 목표로 합니다.
본 논문에서는 다양한 샘플링 주파수, 언어, 음성 유형을 포괄하는 7개의 훈련 세트와 12개의 테스트 세트로 구성된 MOS-Bench를 제시합니다. MOS-Bench는 TTS, VC, SE 시스템에서 생성된 합성 음성부터 전송, 노이즈, 잔향 음성과 같은 비합성 음성까지 다양한 도메인을 다룹니다.
MOS-Bench 구성
훈련 및 개발 세트: BVCC, SOMOS, SingMOS, NISQA, TMHINT-QI, Tencent, PSTN 등 7개 데이터셋
테스트 세트: BVCC, SOMOS, NISQA, TMHINT-QI, VMC'22 OOD 트랙, VMC'23 트랙 1a 및 1b, VMC'23 트랙 2, VMC'23 트랙 3, VMC'24 트랙 2 등 12개 데이터셋