이 연구는 우르두어 질문 답변 데이터셋 UQA를 소개한다. UQA는 영어 질문 답변 데이터셋 SQuAD2.0을 우르두어로 번역하여 만든 것이다. 번역 과정에서 발생할 수 있는 문제를 해결하기 위해 EATS(Enclose to Anchor, Translate, Seek) 기법을 사용했다.
번역 모델 선택을 위해 Google Translator와 Seamless M4T 모델을 비교 평가했으며, Seamless M4T 모델이 더 나은 성능을 보였다. 이를 바탕으로 UQA 데이터셋을 생성했다.
UQA 데이터셋을 사용하여 mBERT, XLM-RoBERTa, mT5 등 다국어 질문 답변 모델을 평가한 결과, XLM-RoBERTa-XL 모델이 F1 score 85.99, EM 74.56의 성능을 보였다. 이는 기존 우르두어 질문 답변 데이터셋 대비 큰 향상을 보인 것이다.
UQA 데이터셋은 우르두어 자연어 처리 시스템 개발과 기존 모델의 다국어 전이 학습을 위한 유용한 자원이 될 것으로 기대된다. 또한 EATS 기법은 다른 언어와 도메인에 대한 고품질 데이터셋 생성에도 효과적일 것으로 보인다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Samee Arif,S... alle arxiv.org 05-03-2024
https://arxiv.org/pdf/2405.01458.pdfDomande più approfondite