Core Concepts
벵골어와 네팔어 문자 인식을 위한 트랜스포머 기반 모델을 개발하고 평가하였으며, 높은 정확도를 달성하였다.
Abstract
이 연구에서는 벵골어와 네팔어 문자 인식을 위한 모델을 제안하였다. 필기체와 인쇄체 텍스트 이미지를 학습 데이터로 사용하였다. 실험 결과, 제안된 모델은 학습 과정에서 낮은 문자 오류율(CER)과 단어 오류율(WER)을 달성하였으며, 테스트 세트에서도 효과적으로 작동하였다. 벵골어의 경우 학습 시 CER 0.04, WER 0.10을 달성하였고, 테스트 시 평균 CER 0.07, WER 0.12를 기록하였다. 네팔어의 경우 학습 시 CER 0.09, WER 0.14를 달성하였고, 테스트 시 평균 CER 0.11, WER 0.15를 기록하였다. 이러한 결과는 제안된 모델이 벵골어와 네팔어 문자 인식에 효과적임을 보여준다. 문서 디지털화와 텍스트 추출 등 실용적인 응용 분야에 활용될 수 있을 것으로 기대된다.
Stats
벵골어 학습 데이터: 총 21,234개 단어, 32,784개 문자, 5,470개 고유 단어
네팔어 학습 데이터: 약 7,000개 단어, 10,000개 문자