Khái niệm cốt lõi
사용자 피드백을 기반으로 특정 목표 음성을 효과적으로 합성할 수 있는 접근법을 제안합니다. 이는 이전 음성 녹음이 없는 음성 장애인들에게 특히 유용합니다.
Tóm tắt
이 논문은 사용자 피드백을 활용하여 특정 목표 음성을 합성하는 접근법을 제안합니다. 주요 내용은 다음과 같습니다:
신경망 기반 분석 및 합성 프레임워크를 통해 저차원이면서도 충분히 표현력 있는 화자 임베딩 공간을 구축합니다.
이 공간 내에서 사용자가 간단한 비교 작업을 수행하면서 원하는 음성을 점진적으로 찾아가는 검색 알고리즘을 구현합니다.
합성기의 자코비안 행렬을 분석하여 음높이, 음량, 음색 등 다양한 음성 속성을 조절할 수 있는 편집 방향을 식별합니다.
실험 결과, 제안된 접근법은 사용자의 목표 음성을 효과적으로 근사할 수 있음을 보여줍니다. 또한 발견된 편집 방향을 통해 사용자가 생성된 음성을 세부적으로 조정할 수 있습니다.
Thống kê
음성 합성 모델의 출력 멜-스펙트로그램과 참조 음성의 멜-스펙트로그램 간 평균 제곱 오차(MSE)가 감소한다.
사용자가 선택한 음성과 참조 음성 간 Resemblyzer 유사도 점수가 증가한다.
사용자가 선택한 음성과 참조 음성 간 ECAPA-TDNN 유사도 점수가 증가한다.
Trích dẫn
"사용자 피드백을 기반으로 특정 목표 음성을 효과적으로 합성할 수 있는 접근법을 제안합니다."
"발견된 편집 방향을 통해 사용자가 생성된 음성을 세부적으로 조정할 수 있습니다."