핵심 개념
구조화된 테스트 신호와 분석 방법을 활용하여 음성 자료 수집 및 제시를 위한 프로토콜과 도구를 개발하였다.
초록
이 논문은 음성 자료 수집, 재사용 가능한 자료 생성, 주관적 실험을 위한 자료 제시 등을 위한 프로토콜을 제안한다. 또한 대상 응용 프로그램에 적합한 기존 음성 자료의 호환성을 평가할 수 있는 수단을 제공한다. 이러한 프로토콜과 도구는 Time-Stretched Pulse(TSP)라는 새로운 계열의 구조화된 테스트 신호와 분석 방법을 기반으로 구축되었다. 반세기 전에 비해 약 10억 배 더 강력한 컴퓨팅 자원(소프트웨어 개발 포함)이 가능해짐에 따라 이러한 프로토콜과 도구를 자원 부족 환경에서도 활용할 수 있게 되었다.
통계
음성 신호 수집 시 고려해야 할 요인: 음압 레벨, 배경 잡음(RTV), 왜곡(LTI, SDTI), 직접음과 간접음 비율, 후처리 과정
음성 신호 제시 시 고려해야 할 요인: 음압 레벨, 배경 잡음(RTV), 왜곡(LTI, SDTI)
인용구
"Using less-qualified materials is inevitable and desirable because speech technologies have to be effective in conditions to which humans are exposed."
"It is indispensable to bridge the gap between speech materials built for scientific research and materials we are exposed to and producing in everyday life by introducing objective evaluation and classification schemes of their quality."