최근 텍스트 음성 변환(TTS) 기술의 발전으로 자연스럽고 표현력 있는 음성을 생성할 수 있게 되었지만, 사용자가 감정과 강도를 선택할 수 있는 옵션은 여전히 부족합니다. 우리는 EmoKnob이라는 프레임워크를 제안하여 소수의 감정 샘플로도 음성 합성에 미세한 감정 제어를 가능하게 합니다.
다양한 억양을 가진 사용자를 위해 다단계 VAE와 적대적 학습을 이용하여 텍스트-음성 변환 모델의 억양 변환 능력을 향상시킴.
본 연구는 조건부 변분 자동 인코더(CVAE)를 활용하여 화자의 정체성을 유지하면서도 다양한 억양으로 음성을 합성할 수 있는 효율적인 프레임워크를 제안한다.
합성 데이터를 활용하면 화자 간 스타일 전이 TTS 모델의 자연스러움과 화자 유사도를 향상시킬 수 있다.
Blizzard 2023 Challenge에 참여한 프랑스어 음성 합성 시스템 FruitShell의 개발 과정과 평가 결과를 소개한다.
본 연구는 음성 익명화를 위해 프로소디 매개변수를 활용한 벡터 양자화 변분 자동 인코더(VQ-VAE) 기반 접근법을 제안한다. 이 방법은 화자 정보와 내용 정보를 분리하여 화자 익명화를 달성하면서도 감정 정보를 보존할 수 있다.
단일 참조 음성 발화를 사용하여 다국어 음성 합성 시스템에 음성을 전달할 수 있는 제로샷 음성 전달 모듈을 소개한다.
이 연구는 쿠르드어 음성 합성 기술을 크게 향상시켰으며, 특히 쿠르드어 음성 합성을 위한 WaveGlow 보코더의 개발과 최적화에 초점을 맞추었습니다. 21시간의 고품질 쿠르드어 음성 데이터를 활용하여 개발된 맞춤형 TTS 시스템은 리듬, 강세, 억양 등의 측면에서 매우 자연스럽고 생동감 있는 음성을 합성할 수 있습니다.
TTS 음성의 운율 특성(피치, 지속시간, 에너지)을 사람의 음성과 더 유사하게 조정하여 자연스럽고 표현력 있는 합성 음성을 생성하는 것이 이 프로젝트의 핵심 목표이다.
DPI-TTS는 기존 DiT 기반 음성 합성 모델의 한계를 극복하기 위해 제안된 방법으로, 음향 특성을 고려한 방향성 패치 상호작용을 통해 빠른 학습 속도와 자연스러운 음성 합성을 달성합니다. 또한 세부적인 스타일 시간 모델링을 통해 화자 유사도를 향상시킵니다.