核心概念
vec2wav 2.0은 음성 자기지도학습 모델의 이산 토큰을 활용하여 음원의 내용 정보를 추출하고, 참조 음원의 음색 정보를 효과적으로 결합하여 우수한 음성 변환 성능을 달성한다.
要約
vec2wav 2.0은 음성 변환을 위한 새로운 이산 토큰 보코더 모델이다. 이 모델은 음성 자기지도학습 모델에서 추출한 이산 토큰을 내용 특징으로 사용하고, 참조 음원의 음색 정보를 효과적으로 결합하여 음성 변환을 수행한다.
구체적으로 vec2wav 2.0은 다음과 같은 특징을 가진다:
- 내용 특징: vq-wav2vec 모델에서 추출한 이산 토큰을 사용하여 음원의 발음, 리듬 등 내용 정보를 보존한다.
- 음색 정보 결합: WavLM 모델에서 추출한 음색 특징을 적응적 Snake 활성화 함수를 통해 효과적으로 결합하여 목표 화자의 음색을 잘 반영한다.
- 무지도 학습: 별도의 레이블 데이터 없이 단일 화자 음성 데이터만으로 효과적으로 학습할 수 있다.
- 우수한 성능: 기존 음성 변환 모델들을 크게 능가하는 음질, 화자 유사도, 운율 보존 성능을 보인다.
- 범용성: 단일 언어 데이터로 학습되었음에도 다국어 음성 변환에서도 우수한 성능을 보인다.
이를 통해 vec2wav 2.0은 이산 토큰 보코더만으로도 화자 음색을 효과적으로 조절할 수 있음을 보여주며, 음성 변환 및 합성 기술의 새로운 패러다임을 제시한다.
統計
음성 변환 시스템의 음질은 평균 4.51점으로 매우 우수하다.
화자 유사도 점수는 평균 4.46점으로 매우 높은 수준이다.
음원과 변환 음성의 피치 상관계수는 0.722로 우수한 운율 보존 성능을 보인다.
引用
"vec2wav 2.0은 이산 토큰 보코더만으로도 화자 음색을 효과적으로 조절할 수 있음을 보여주며, 음성 변환 및 합성 기술의 새로운 패러다임을 제시한다."
"vec2wav 2.0은 기존 음성 변환 모델들을 크게 능가하는 음질, 화자 유사도, 운율 보존 성능을 보인다."