Główne pojęcia
텍스트 프롬프트를 사용하여 음성 속성을 상대적으로 수정할 수 있는 새로운 기술
Streszczenie
이 논문은 텍스트 프롬프트를 사용하여 음성 속성을 편집하는 새로운 과제를 소개합니다. 이 과제의 목표는 텍스트 프롬프트에 따라 소스 음성의 특정 음성 속성을 변경하는 것입니다.
이 과제에서 직면하는 주요 두 가지 문제는 텍스트 프롬프트의 불충분성과 부정확성입니다. 첫째, 불충분성은 음성 인지 공간의 다차원적 특성으로 인해 텍스트 프롬프트가 모든 음성 특성을 완전히 포착하기 어렵다는 것을 의미합니다. 둘째, 부정확성은 음성 특성을 설명할 때 정량적 물리적 설명자보다는 정성적 설명자를 사용한다는 것을 의미합니다.
이러한 문제를 해결하기 위해 VoxEditor가 제안되었습니다. VoxEditor는 잔차 메모리(ResMem) 블록과 음성 속성 정도 예측(VADP) 모듈을 통해 텍스트 프롬프트와 음성 속성 간의 정렬을 개선합니다. 또한 VCTK-RVA 데이터셋을 구축하여 다양한 화자 간 음성 특성 차이를 수동으로 주석화했습니다.
실험 결과, VoxEditor는 텍스트 프롬프트와 잘 정렬되고 소스 음성의 음성 특성을 어느 정도 유지할 수 있는 고품질 음성을 생성할 수 있음을 보여줍니다.
Statystyki
음성 속성 편집 작업에서 텍스트 프롬프트의 불충분성과 부정확성은 주요 과제입니다.
VoxEditor는 잔차 메모리(ResMem) 블록과 음성 속성 정도 예측(VADP) 모듈을 통해 이러한 문제를 해결합니다.
VCTK-RVA 데이터셋은 화자 간 음성 특성 차이를 수동으로 주석화한 새로운 데이터셋입니다.
Cytaty
"텍스트 프롬프트를 사용하여 음성 스타일을 제어할 수 있는 최근 발전에도 불구하고, 합성 음성의 음성 속성은 여전히 제어하기 어렵고 도전적입니다."
"VoxEditor는 텍스트 프롬프트에 따라 소스 음성의 특정 음성 속성을 상대적으로 수정하는 것을 목표로 합니다."