Core Concepts
THU-HCSI 팀이 LIMMITS'24 챌린지를 위해 개발한 다화자 다언어 소량 음성 복제 시스템은 화자 유사성과 자연스러움을 높이기 위해 YourTTS를 기반으로 하고 여러 가지 개선 사항을 도입했다.
Abstract
이 논문은 THU-HCSI 팀이 LIMMITS'24 챌린지를 위해 개발한 다화자 다언어 소량 음성 복제 시스템을 소개한다. 높은 화자 유사성과 자연스러움을 달성하기 위해 YourTTS를 기반으로 하고 VITS2에서 영감을 받은 여러 가지 개선 사항을 도입했다.
데이터 전처리 단계에서는 오디오 데이터를 재샘플링, 정규화 및 노이즈 제거하였다. 모델 학습 단계에서는 소량 데이터와 사전 학습 데이터를 혼합하고 화자 균형 샘플링 전략을 채택하여 타겟 화자에 대한 효과적인 fine-tuning을 보장했다.
구체적인 모델 아키텍처 개선 사항은 다음과 같다:
화자 인식 텍스트 인코더: 텍스트 인코딩 시 화자 임베딩을 고려하여 화자의 발화 스타일과 억양 특성을 더 잘 포착할 수 있도록 함
플로우 기반 디코더에 Transformer 블록 도입: 장기 의존성 모델링 능력 향상
단조 정렬 탐색 시 노이즈 주입: 다양한 정렬 경로 탐색 유도
이러한 개선을 통해 LIMMITS'24 챌린지 트랙 1에서 화자 유사성 MOS 4.25점을 달성하며 최고 성적을 거두었고, 자연스러움 MOS 3.97점도 상당한 수준을 보였다.
Stats
베이스 모델 학습에는 560시간의 고품질 TTS 데이터(7개 인도 언어, 각 언어 남녀 화자 각 40시간)를 사용했다.
소량 데이터는 9명의 타겟 화자 각 5분 분량이며, 일부 환경 노이즈가 있어 FullSubNet+로 노이즈 제거를 수행했다.
Quotes
"화자 임베딩을 텍스트 인코딩 시 고려하면 화자의 발화 스타일과 억양 특성을 더 잘 포착할 수 있어 화자 유사성 향상에 도움이 된다."
"플로우 기반 디코더에 Transformer 블록을 도입하여 장기 의존성 모델링 능력을 향상시켰다."
"단조 정렬 탐색 시 노이즈를 주입하여 다양한 정렬 경로를 탐색하도록 유도했다."