Khái niệm cốt lõi
본 연구는 다화자, 다감정 음성 합성을 위해 대조 학습 기반의 새로운 접근법을 제안한다. 이를 통해 화자, 감정, 스타일 표현을 효과적으로 분리하고 전이할 수 있다.
Tóm tắt
본 논문은 다화자, 다감정 표현 음성 합성을 위한 새로운 대조 학습 기반 접근법을 제안한다.
주요 내용은 다음과 같다:
대조 학습을 활용하여 화자, 감정, 스타일 표현을 효과적으로 분리하는 Speech Representation Learning (SRL) 모듈을 제안한다. 이를 위해 발화 수준과 범주 수준에서 긍정/부정 샘플 쌍을 구성하여 학습한다.
라벨링된 데이터와 라벨링되지 않은 데이터를 효과적으로 활용하기 위해 반지도 학습 전략을 도입한다.
학습된 표현을 개선된 VITS 모델에 통합하여 다양한 스타일과 감정의 표현이 가능한 음성 합성 시스템을 구현한다.
실험 결과, 제안 모델은 기존 모델 대비 자연스러운 음질, 감정 유사도, 화자 유사도, 스타일 유사도 측면에서 우수한 성능을 보였다. 또한 객관적 평가에서도 우수한 결과를 달성했다. 이를 통해 제안 접근법의 효과성과 강건성을 입증하였다.
Thống kê
제안 모델은 기존 모델 대비 낮은 문자 오류율(3.9%)과 단어 오류율(2.7%)을 달성했다.
제안 모델은 0.896의 높은 화자 코사인 유사도를 보였다.
Trích dẫn
"본 연구는 다화자, 다감정 음성 합성을 위해 대조 학습 기반의 새로운 접근법을 제안한다."
"대조 학습을 활용하여 화자, 감정, 스타일 표현을 효과적으로 분리하는 Speech Representation Learning (SRL) 모듈을 제안한다."
"라벨링된 데이터와 라벨링되지 않은 데이터를 효과적으로 활용하기 위해 반지도 학습 전략을 도입한다."