Conceitos essenciais
Blizzard 2023 Challenge에 참여한 프랑스어 음성 합성 시스템 FruitShell의 개발 과정과 평가 결과를 소개한다.
Resumo
이 논문은 Blizzard 2023 Challenge에 참여한 프랑스어 음성 합성 시스템 FruitShell에 대해 설명한다.
데이터 전처리 과정:
제공된 NEB 및 AD 데이터셋에서 누락되거나 오류가 있는 텍스트 데이터를 제거하는 스크리닝 과정을 거쳤다.
발음이 없거나 지속 시간이 0인 기호를 제거하고, 단어 경계와 시작/종료 기호를 추가했다.
Spoke 과제를 위해 추가 다화자 데이터를 활용하여 데이터 증강을 수행했다.
제공된 데이터의 발음을 국제 음성 기호(IPA)로 변환하고, 컴파일러 제한으로 인해 경쟁 데이터에 사용된 발음 체계로 변환했다.
모든 오디오를 16kHz로 리샘플링했다.
모델 구조:
VITS 기반의 음향 모델과 HiFiGAN 보코더를 사용했다.
Spoke 과제를 위해 다화자 모델을 학습하고, 지속 시간 예측기, 보코더, 흐름 계층에 화자 정보를 포함시켰다.
랜덤 지속 시간 예측기를 사용하여 합성 음성의 다양성과 자연스러움을 높였다.
평가 결과:
Hub 과제에서 품질 MOS 3.6, 유사도 MOS 3.4를 기록했다.
Spoke 과제에서 품질 MOS 3.4, 유사도 MOS 3.5를 기록했다.
Estatísticas
제공된 NEB 데이터셋에서 61,330개의 오디오 샘플을 추출했다.
AD 데이터셋에서 15,000개의 샘플을 추출했다.
데이터를 80:20으로 나누어 훈련 및 테스트 세트로 사용했다.