Grunnleggende konsepter
ControlSpeech는 사전 훈련된 디커플링된 코덱 표현 공간을 활용하여 음성의 스타일, 내용 및 음색을 동시에 제어할 수 있는 최초의 텍스트 음성 변환 시스템입니다.
Sammendrag
ControlSpeech: 제로샷 음성 복제 및 스타일 제어를 위한 새로운 TTS 시스템
이 연구 논문에서는 몇 초의 음성 프롬프트와 간단한 텍스트 스타일 설명 프롬프트만으로 화자의 음성을 완벽하게 복제하고 말하기 스타일을 자유롭게 제어하고 조정할 수 있는 텍스트 음성 변환(TTS) 시스템인 ControlSpeech를 소개합니다. ControlSpeech는 음색, 내용 및 스타일을 동시에 제어할 수 있는 TTS 시스템이라는 보다 까다로운 과제에 중점을 둡니다.
이 연구의 주요 목표는 기존 제로샷 TTS 모델과 스타일 제어 가능 TTS 모델의 한계를 해결하는 것입니다. 기존 모델은 음성 복제 또는 스타일 제어 중 하나만 수행할 수 있지만 둘 다 동시에 수행할 수는 없습니다. 이 연구에서는 음색, 내용 및 스타일을 동시에 독립적으로 제어할 수 있는 새로운 TTS 시스템인 ControlSpeech를 제안합니다.
ControlSpeech는 사전 훈련된 디커플링된 표현 공간을 활용하여 제어 가능한 음성을 생성합니다. 인코더-디코더 아키텍처를 기본 합성 프레임워크로 채택하고 고품질 비자동 회귀, 신뢰 기반 코덱 생성기를 디코더로 통합합니다. 또한 텍스트 스타일 제어 가능 TTS에서 발생하는 다대다 문제를 해결하기 위해 스타일 혼합 의미 밀도(SMSD) 모듈을 제안합니다. 이 모듈은 스타일 의미 정보의 세분화된 분할 및 샘플링 기능을 향상시켜 보다 다양한 스타일로 음성을 생성할 수 있도록 합니다.