Core Concepts
본 연구는 사전 설계된 정보 병목 없이 음성을 내용, 피치, 리듬, 음색 성분으로 자동 분리하는 새로운 방법을 제안한다. 상호 정보량 최소화와 텍스트 유도 일관성 학습을 통해 분리된 성분 간 정보 중복을 제거하고 음색 누출 문제를 해결한다.
Abstract
본 연구는 음성을 내용, 피치, 리듬, 음색 성분으로 자동 분리하는 새로운 방법을 제안한다. 기존 방법들은 사전 설계된 정보 병목을 사용하여 음성 성분을 분리했지만, 피치와 리듬 정보가 여전히 혼합되어 있었다.
제안 방법은 두 단계로 구성된다. 첫째, 데이터 증강과 순위 손실 함수를 이용하여 자기 지도 학습 방식으로 음성 성분을 분리한다. 둘째, 새로운 상호 정보량 상한 추정기 IFUB와 텍스트 유도 일관성 학습 모듈을 도입하여 분리된 성분 간 정보 중복을 제거하고 음색 누출 문제를 해결한다.
실험 결과, 제안 방법은 기존 방법 대비 음성 자연성과 화자 유사도가 향상되었으며, 내용, 피치, 리듬 성분이 효과적으로 분리되었음을 보여준다. 또한 화자 독립적 음성 변환 성능도 개선되었다.
Stats
피치 변환 성능 향상: 피치 상관계수가 0.793으로 기존 방법 대비 개선
리듬 변환 성능 향상: 리듬 상관계수가 0.749로 기존 방법 대비 개선
음성 자연성 향상: MOS 점수가 3.83으로 기존 방법 대비 개선
화자 유사도 향상: SMOS 점수가 3.63으로 기존 방법 대비 개선
Quotes
"본 연구는 사전 설계된 정보 병목 없이 음성을 내용, 피치, 리듬, 음색 성분으로 자동 분리하는 새로운 방법을 제안한다."
"상호 정보량 최소화와 텍스트 유도 일관성 학습을 통해 분리된 성분 간 정보 중복을 제거하고 음색 누출 문제를 해결한다."