Core Concepts
본 연구는 성별과 연령이 균형 잡힌 대화 음성 코퍼스를 구축하기 위한 반자동 접근법을 제안한다. 이를 위해 화자 분리와 식별 기술을 활용하여 수작업 처리 시간을 크게 줄였다.
Abstract
이 논문은 성별과 연령이 균형 잡힌 대화 음성 코퍼스를 구축하기 위한 반자동 접근법을 제안한다. 프랑스 국립 오디오비주얼 연구소(INA)의 방송 아카이브에서 선별된 오디오비주얼 문서를 활용하였다.
먼저 음성 검출, 배경 음악 및 중첩 음성 제거, 화자 분리 등의 자동 처리 파이프라인을 통해 깨끗한 화자 세그먼트를 추출하였다. 이렇게 추출된 세그먼트를 인간 평가자에게 제공하여 대상 화자를 수동으로 식별하도록 하였다.
이 파이프라인은 수작업 처리 시간을 10배 줄이는 데 효과적이었다. 자동 처리의 품질과 최종 출력물의 품질을 평가한 결과, 대부분의 선별된 세그먼트에서 높은 품질의 음성을 제공하는 것으로 나타났다. 이 방법은 알려진 대상 화자의 대규모 코퍼스를 구축하는 데 유망한 것으로 보인다.
Stats
이 방법을 통해 최종적으로 874명의 화자를 식별하였다.
전체 코퍼스의 약 30%에서 잡음, 배경 음악, 중첩 화자 등의 문제가 발견되었다.
수작업 처리 시간을 4-10배 줄일 수 있었다.
Quotes
"이 파이프라인은 수작업 처리 시간을 10배 줄이는 데 효과적이었다."
"대부분의 선별된 세그먼트에서 높은 품질의 음성을 제공하는 것으로 나타났다."