核心概念
마라티어 사용자들이 모국어로 정보와 서비스에 효과적으로 접근할 수 있도록 영어 질문 답변 데이터셋 SQuAD를 마라티어로 번역하여 MahaSQuAD 데이터셋을 구축하였다.
要約
이 연구는 영어 질문 답변 데이터셋 SQuAD를 마라티어로 번역하여 MahaSQuAD 데이터셋을 구축하였다. 번역 과정에서 문맥 유지, 언어적 미묘함 처리 등의 과제를 해결하였다. 또한 번역된 답변의 정확한 위치 찾기를 위한 일반화된 접근법을 제안하였다. 이를 통해 저자원 언어의 질문 답변 시스템 구축을 위한 확장 가능한 접근법을 제시하였다. 실험 결과 마라티어 단일 언어 모델인 MahaBERT와 MahaROBERTa가 다국어 모델보다 우수한 성능을 보였다. 이 데이터셋과 모델은 마라티어 자연어 처리 연구와 애플리케이션 개발에 활용될 수 있다.
統計
마라티어 질문 답변 데이터셋 MahaSQuAD는 총 130,319개의 데이터로 구성되어 있다.
훈련 데이터 118,516개, 검증 데이터 11,873개, 테스트 데이터 11,803개, 그리고 수동 검증된 골드 테스트 데이터 500개로 구성되어 있다.
引用
"마라티어는 단순한 언어가 아니라 수백만 명의 정체성과 문화를 담고 있는 매개체이다."
"저자원 언어의 질문 답변 데이터셋 구축을 위한 확장 가능한 접근법을 제시하였다."