核心概念
세르비아어 질문 답변 능력을 향상시키기 위해 합성 데이터셋을 생성하고 이를 활용하여 트랜스포머 모델을 미세 조정하였다.
摘要
이 연구에서는 세르비아어 질문 답변 데이터셋인 SQuAD-sr을 생성하였다. 번역-정렬-검색 방법을 활용하여 SQuAD v1.1 데이터셋을 세르비아어로 변환하였다. 이 과정에서 세르비아어의 키릴 문자와 라틴 문자 이중성을 고려하여 두 가지 버전의 데이터셋을 생성하였다.
생성된 SQuAD-sr 데이터셋을 활용하여 다양한 사전 학습 모델을 미세 조정하였다. 그 결과, 단일어 모델인 BERTic을 라틴 문자 SQuAD-sr 데이터셋으로 미세 조정한 모델이 가장 좋은 성능을 보였다. 이 모델은 세르비아어 XQuAD 데이터셋에서 73.91% Exact Match와 82.97% F1 점수를 달성하였다.
추가 분석을 통해 숫자 값이나 날짜와 관련된 질문에 대한 답변 정확도가 다른 유형의 질문보다 높다는 것을 확인하였다. 이 연구는 수동으로 구축된 데이터셋이 없는 상황에서 합성 데이터셋을 활용하여 효과적인 세르비아어 질문 답변 모델을 개발할 수 있음을 보여준다.
統計資料
세르비아어 XQuAD 데이터셋의 평균 문맥 길이는 758자이다.
세르비아어 XQuAD 데이터셋의 평균 질문 길이는 58자이다.
세르비아어 XQuAD 데이터셋의 평균 답변 길이는 19자이다.
引述
"우리는 SQuAD-sr이라는 세르비아어 질문 답변 데이터셋 중 가장 큰 규모의 데이터셋을 공개한다."
"우리의 모델은 제로 샷 기준선을 능가하지만, 인간의 성능을 넘어서지는 못한다."
"우리의 실험 결과는 단일어 사전 학습 모델이 다국어 모델보다 더 적합하다는 것을 보여준다."