이 연구는 성전환자의 음성 전환 과정을 평가하기 위한 연속적인 음성 여성성 비율(VFP) 예측 시스템을 제안한다. 41명의 프랑스어 화자(여성 시스젠더 12명, 남성 시스젠더 8명, 여성 성전환자 21명)의 음성 데이터를 수집하고 57명의 참여자를 통해 음성 성별 지각 평가를 수행했다. 이를 바탕으로 이진 성별 분류 모델을 학습하고 이를 보정하여 VFP를 예측하는 시스템을 구축했다.
시스젠더 화자의 경우 F0와 성도 길이 기반 모델이 높은 정확도(R2 = 0.94)를 보였지만, 성전환자 음성에 대해서는 성능이 낮았다(R2 = 0.53). 반면 제안한 X-vector 기반 모델은 시스젠더(R2 > 0.99) 및 성전환자(R2 = 0.94) 음성에 대해 우수한 VFP 예측 성능을 보였다. 이는 F0와 성도 길이 외에 음성의 복잡한 특성을 고려할 필요가 있음을 보여준다. 또한 화자의 연령에 따른 성별 분류 정확도 편향이 관찰되어, 다양한 특성의 화자에 대한 모델 적합이 중요함을 시사한다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы