핵심 개념
본 연구는 음성 익명화를 위해 프로소디 매개변수를 활용한 벡터 양자화 변분 자동 인코더(VQ-VAE) 기반 접근법을 제안한다. 이 방법은 화자 정보와 내용 정보를 분리하여 화자 익명화를 달성하면서도 감정 정보를 보존할 수 있다.
초록
이 연구는 음성 익명화를 위한 새로운 접근법을 제안한다. 제안 모델은 벡터 양자화 변분 자동 인코더(VQ-VAE)를 사용하여 화자 정보와 내용 정보를 분리한다. 또한 기본 주파수(F0)와 스펙트럼 에너지와 같은 프로소디 매개변수를 활용하여 감정 정보를 보존한다.
구체적으로 다음과 같은 특징을 가진다:
- 콘텐츠 모듈: 2개의 합성곱 블록, 1개의 다운샘플링 합성곱 블록, 4개의 잔차 합성곱 블록으로 구성된 인코더와 벡터 양자화 모듈로 구성
- 프로소디 모듈: F0와 스펙트럼 에너지를 입력받아 양방향 GRU 네트워크로 프로소디 정보 추출
- 익명화 모듈: 화자 정보를 나타내는 pseudo-x-vector 생성, F0 조정(랜덤 스케일링, 평균 정규화)
- 디코더 모듈: 콘텐츠 및 프로소디 임베딩과 pseudo-x-vector를 입력받아 HiFiGAN 보코더로 음성 합성
실험 결과, 제안 모델은 감정 인식 성능이 우수하지만 화자 익명화 성능은 일부 베이스라인 대비 다소 낮은 것으로 나타났다. 이는 벡터 양자화에 따른 정보 손실과 pseudo-x-vector 생성 방식의 한계로 분석된다. 향후 이를 개선하기 위한 추가 연구가 필요할 것으로 보인다.
통계
화자 익명화 성능(EER) 평균: 제안 모델 8.57%, 베이스라인 B1-B6 9.20%-34.37%
자동 음성 인식 성능(WER) 평균: 제안 모델 5.39%-13.65%, 베이스라인 B1-B6 2.91%-9.95%
화자 감정 인식 성능(UAR) 평균: 제안 모델 38.06%-45.56%, 베이스라인 B1-B6 36.13%-55.61%
인용구
"본 연구는 음성 익명화를 위해 프로소디 매개변수를 활용한 벡터 양자화 변분 자동 인코더(VQ-VAE) 기반 접근법을 제안한다."
"제안 모델은 화자 정보와 내용 정보를 분리하여 화자 익명화를 달성하면서도 감정 정보를 보존할 수 있다."
"실험 결과, 제안 모델은 감정 인식 성능이 우수하지만 화자 익명화 성능은 일부 베이스라인 대비 다소 낮은 것으로 나타났다."