核心概念
밀접한 관련 언어 집단(크로아티아어, 세르비아어, 보스니아어, 몬테네그로어)에 대한 추가 사전 학습을 통해 기존 다국어 모델의 성능을 향상시킬 수 있으며, 이는 1억 개 미만의 매개변수를 가진 인코더 모델이 여전히 필요한 학술 분야에서 유용할 것으로 보인다.
摘要
이 논문은 언어 모델 개발에 대한 새로운 접근법을 제시한다. 기존의 모노링궐 모델이나 중간 규모의 다국어 모델을 처음부터 학습하는 것 대신, 대규모 다국어 모델(XLM-R)을 활용하여 추가 사전 학습을 수행함으로써 성능을 향상시킬 수 있음을 보여준다.
구체적으로 다음과 같은 내용을 다룬다:
- 크로아티아어, 세르비아어, 보스니아어, 몬테네그로어로 구성된 HBS 언어군과 슬로베니아어에 대한 11.5억 단어 규모의 대규모 데이터셋 구축
- HBS 언어군에 대해 XLM-R 베이스 모델과 XLM-R 대형 모델을 추가 사전 학습하고, 슬로베니아어를 포함하여 추가 학습한 모델과 성능 비교
- 명명 개체 인식, 감성 분석, 상식 추론 등 3가지 다양한 태스크에서 평가
- 추가 사전 학습 과정에서 모델 성능이 지속적으로 향상되다가 일정 시점 이후 감소하는 현상 관찰 및 원인 분석
- 대규모 다국어 모델을 활용한 추가 사전 학습이 1억 개 미만의 매개변수를 가진 인코더 모델 구축에 효과적임을 시사
統計資料
11.5억 단어 규모의 HBS(크로아티아어, 세르비아어, 보스니아어, 몬테네그로어) 데이터셋 구축
7.6억 단어 규모의 슬로베니아어 데이터셋 구축
引述
"언어 모델 분야는 격동의 시기를 겪고 있으며, 더 나은 모델이 전례 없는 속도로 등장하고 있다. 그러나 우리는 특히 학술 커뮤니티에서 10억 개 미만의 매개변수를 가진 인코더 모델이 여전히 매우 필요하다고 주장한다."
"우리는 이러한 개발 방식이 학술 연구를 위한 대규모 데이터 세트에 메타데이터를 추가하는 데 주로 사용되는 인코더 모델의 존재를 보장할 수 있다고 믿는다."