이 연구에서는 벵골어 연속 음성에서 화자의 지역을 구분하는 방법을 제안한다. 방글라데시의 8개 지역(바리살, 치타공, 다카, 쿨나, 미멘싱, 라즈샤히, 랑푸르, 실렛)을 대상으로 하였다.
데이터 수집 및 전처리 과정을 거쳐 MFCC와 델타 특징을 추출하였다. 이를 바탕으로 인공 신경망 모델을 구축하였으며, 85.44%의 정확도를 달성하였다.
모델 성능 평가를 위해 혼동 행렬을 분석하였다. 이를 통해 각 지역별 분류 성능을 확인할 수 있었다.
이 연구는 벵골어 음성 인식 및 화자 지역 구분 분야에 기여할 것으로 기대된다. 특히 범죄 용의자 식별이나 음성 사기 탐지 등의 응용 분야에 활용될 수 있다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Hasmot Ali,M... at arxiv.org 04-24-2024
https://arxiv.org/pdf/2404.15168.pdfDeeper Inquiries