المفاهيم الأساسية
Blizzard 2023 Challenge에 참여한 프랑스어 음성 합성 시스템 FruitShell의 개발 과정과 평가 결과를 소개한다.
الملخص
이 논문은 Blizzard 2023 Challenge에 참여한 프랑스어 음성 합성 시스템 FruitShell에 대해 설명한다.
데이터 전처리 과정:
- 제공된 NEB 및 AD 데이터셋에서 누락되거나 오류가 있는 텍스트 데이터를 제거하는 스크리닝 과정을 거쳤다.
- 발음이 없거나 지속 시간이 0인 기호를 제거하고, 단어 경계와 시작/종료 기호를 추가했다.
- Spoke 과제를 위해 추가 다화자 데이터를 활용하여 데이터 증강을 수행했다.
- 제공된 데이터의 발음을 국제 음성 기호(IPA)로 변환하고, 컴파일러 제한으로 인해 경쟁 데이터에 사용된 발음 체계로 변환했다.
- 모든 오디오를 16kHz로 리샘플링했다.
모델 구조:
- VITS 기반의 음향 모델과 HiFiGAN 보코더를 사용했다.
- Spoke 과제를 위해 다화자 모델을 학습하고, 지속 시간 예측기, 보코더, 흐름 계층에 화자 정보를 포함시켰다.
- 랜덤 지속 시간 예측기를 사용하여 합성 음성의 다양성과 자연스러움을 높였다.
평가 결과:
- Hub 과제에서 품질 MOS 3.6, 유사도 MOS 3.4를 기록했다.
- Spoke 과제에서 품질 MOS 3.4, 유사도 MOS 3.5를 기록했다.
الإحصائيات
제공된 NEB 데이터셋에서 61,330개의 오디오 샘플을 추출했다.
AD 데이터셋에서 15,000개의 샘플을 추출했다.
데이터를 80:20으로 나누어 훈련 및 테스트 세트로 사용했다.