Core Concepts
벵골어 연속 음성에서 화자의 지역을 인공 신경망을 통해 구분하는 방법을 제안한다.
Abstract
이 연구에서는 벵골어 연속 음성에서 화자의 지역을 구분하는 방법을 제안한다. 방글라데시의 8개 지역(바리살, 치타공, 다카, 쿨나, 미멘싱, 라즈샤히, 랑푸르, 실렛)을 대상으로 하였다.
데이터 수집 및 전처리 과정을 거쳐 MFCC와 델타 특징을 추출하였다. 이를 바탕으로 인공 신경망 모델을 구축하였으며, 85.44%의 정확도를 달성하였다.
모델 성능 평가를 위해 혼동 행렬을 분석하였다. 이를 통해 각 지역별 분류 성능을 확인할 수 있었다.
이 연구는 벵골어 음성 인식 및 화자 지역 구분 분야에 기여할 것으로 기대된다. 특히 범죄 용의자 식별이나 음성 사기 탐지 등의 응용 분야에 활용될 수 있다.
Stats
음성 데이터는 총 45시간 이상, 633명의 화자(416명 남성, 217명 여성)로 구성되어 있다.
각 지역별 데이터 양은 다음과 같다: 바리살 2,000개, 치타공 2,200개, 다카 3,000개, 쿨나 2,100개, 미멘싱 2,000개, 라즈샤히 2,200개, 랑푸르 2,000개, 실렛 2,230개.
Quotes
"음성은 효율적인 의사소통을 위한 강력한 매체이다. 음질, 음높이, 톤, 리듬, 공명, 질감 등 다양한 고유 특징을 가지고 있어 화자 인식에 강력한 식별자로 작용한다."
"지역 또는 지역 구분은 특정 지리적 영역의 사람들을 분류하는 중요한 작업이다. 우리의 기여에서는 방글라데시의 8개 지역을 대상으로 하였다."