المفاهيم الأساسية
이 연구는 포르투갈어 신경 언어 처리를 위한 벤치마크 데이터셋과 모델을 제공한다. 영어 GLUE와 SuperGLUE 벤치마크를 기반으로 기계 번역을 통해 포르투갈어 버전을 만들었으며, 이를 PORTULAN ExtraGLUE로 명명했다. 또한 이 데이터셋을 활용하여 저랭크 적응(LoRA) 기법으로 포르투갈어 언어 모델을 미세 조정하고 공개했다.
الملخص
이 연구는 포르투갈어 신경 언어 처리를 위한 벤치마크 데이터셋과 모델을 제공한다.
- 영어 GLUE와 SuperGLUE 벤치마크를 기반으로 기계 번역을 통해 포르투갈어 버전을 만들었다. 이를 PORTULAN ExtraGLUE로 명명했다.
- PORTULAN ExtraGLUE는 단일 문장 작업, 유사성 작업, 추론 작업, 질문 답변 작업, 추론 작업 등 다양한 유형의 14개 데이터셋으로 구성된다.
- 데이터셋 품질 분석 결과, 기계 번역 오류와 레이블 오류는 평균 각각 8%와 2%로 비교적 낮은 수준이다.
- 또한 이 데이터셋을 활용하여 저랭크 적응(LoRA) 기법으로 포르투갈어 언어 모델을 미세 조정하고 공개했다. 이는 포르투갈어 신경 언어 처리를 위한 첫 번째 기준선 모델이 된다.
الإحصائيات
데이터셋의 총 토큰 수는 유럽 포르투갈어(pt-PT) 버전이 약 5.2M, 브라질 포르투갈어(pt-BR) 버전이 약 5.1M이다.
기계 번역 오류 비율은 평균 8%이며, 레이블 오류 비율은 평균 2%이다.
데이터셋 간 BLEU 점수 평균은 57.3으로, pt-PT와 pt-BR 버전 간 상당한 차이가 있음을 보여준다.