이 연구는 우르두어 질문 답변 데이터셋 UQA를 소개한다. UQA는 영어 질문 답변 데이터셋 SQuAD2.0을 우르두어로 번역하여 만든 것이다. 번역 과정에서 발생할 수 있는 문제를 해결하기 위해 EATS(Enclose to Anchor, Translate, Seek) 기법을 사용했다.
번역 모델 선택을 위해 Google Translator와 Seamless M4T 모델을 비교 평가했으며, Seamless M4T 모델이 더 나은 성능을 보였다. 이를 바탕으로 UQA 데이터셋을 생성했다.
UQA 데이터셋을 사용하여 mBERT, XLM-RoBERTa, mT5 등 다국어 질문 답변 모델을 평가한 결과, XLM-RoBERTa-XL 모델이 F1 score 85.99, EM 74.56의 성능을 보였다. 이는 기존 우르두어 질문 답변 데이터셋 대비 큰 향상을 보인 것이다.
UQA 데이터셋은 우르두어 자연어 처리 시스템 개발과 기존 모델의 다국어 전이 학습을 위한 유용한 자원이 될 것으로 기대된다. 또한 EATS 기법은 다른 언어와 도메인에 대한 고품질 데이터셋 생성에도 효과적일 것으로 보인다.
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Samee Arif,S... ที่ arxiv.org 05-03-2024
https://arxiv.org/pdf/2405.01458.pdfสอบถามเพิ่มเติม