Core Concepts
아프리카계 미국인 음성을 재현하는 데 있어 예상치 못한 어려움이 있으며, 이는 음성 인식에 대한 편견과 관련이 있을 수 있다.
Abstract
이 연구는 아프리카계 미국인 음성 합성 시스템 개발 과정과 평가 결과를 다룹니다.
먼저 아프리카계 미국인 IT 전문가들을 대상으로 한 3개의 포커스 그룹 연구를 통해 대표적이고 적절한 음성을 선정하기 위한 가이드라인과 과제를 도출했습니다. 이를 바탕으로 아프리카계 미국인 여성의 음성을 녹음하여 합성 시스템을 개발했습니다.
이후 미국 영어 화자를 대상으로 한 두 가지 연구에서 참여자들은 해당 음성을 아프리카계 미국인 음성으로 인식하지 못했습니다. 반면 아프리카계 미국인 전문가 그룹에서는 해당 음성을 아프리카계 미국인 음성으로 명확히 인식했습니다. 아프리카계 미국인 전문가들은 이러한 결과가 비아프리카계 미국인들의 편견 때문일 수 있다고 제안했습니다.
Stats
"아프리카계 미국인 화자의 목소리는 75%에서 97% 정확도로 식별될 수 있다."
"'안녕하세요'라는 단어만으로도 70% 정확도로 아프리카계 미국인 화자를 식별할 수 있다."
Quotes
"아프리카계 미국인 목소리를 대표하고 적절하게 표현하는 것이 중요하다."
"교육받고 전문적인 목소리를 가진 아프리카계 미국인으로 인식하기 어려울 수 있다."
"편견과 고정관념이 모든 수준의 기술 개발에 스며들어 있다."