이 연구는 소라니 쿠르드어 하위 방언 분류에 관한 것입니다. 연구팀은 이라크 쿠르디스탄 지역에서 다양한 연령, 성별, 학력, 직업의 원어민 화자를 대상으로 인터뷰를 진행하여 29시간 16분 40초 분량의 오디오 데이터를 수집했습니다. 이 데이터셋은 6개의 하위 방언을 포함하고 있습니다. 연구팀은 ANN, CNN, RNN-LSTM 등 3가지 심층 학습 모델을 적용하여 실험을 진행했습니다. 다양한 트랙 길이, 데이터셋 분할, 불균형 데이터셋 처리 기법 등을 시도했으며, 총 225번의 실험을 수행했습니다. 그 결과 RNN-LSTM 모델이 96%의 정확도로 가장 우수한 성능을 보였고, CNN은 93%, ANN은 75%의 정확도를 달성했습니다. 균형잡힌 데이터셋, 특히 과대표집 기법을 적용한 경우 모든 모델의 성능이 향상되었습니다. 향후 연구에서는 다른 쿠르드어 방언을 포함하는 확장 연구를 진행할 수 있습니다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы