핵심 개념
대규모 언어 모델의 성능은 언어 간 불균형한 학습 데이터 분포로 인해 영어와 같은 고자원 언어에 편향되어 있다. 본 연구는 언어 간 성능 격차를 정량적으로 측정하는 Language Ranker 방법을 제안하고, 다양한 대규모 언어 모델에 대한 실험 결과를 분석한다.
초록
본 연구는 대규모 언어 모델(LLM)의 다국어 성능을 정량적으로 측정하기 위한 방법을 제안한다.
언어 간 성능 격차 측정: 영어 데이터에 대한 LLM의 성능을 기준으로 삼아, 다른 언어 데이터에 대한 LLM의 성능을 코사인 유사도로 측정한다. 이를 통해 언어 간 성능 격차를 정량화할 수 있다.
다양한 LLM 비교: 4개의 오픈소스 LLM(LlaMa2, Qwen, Mistral, Gemma)을 대상으로 실험을 수행했다. 실험 결과, 고자원 언어와 저자원 언어 간 성능 격차가 뚜렷하게 나타났으며, 다양한 LLM 간 성능 순위가 유사한 것으로 확인되었다.
모델 크기와 성능: 동일한 LLM 모델(Qwen1.5)에 대해 크기를 달리하여 실험한 결과, 고자원 언어의 경우 모델 크기가 커질수록 성능이 오히려 저하되는 반면, 저자원 언어의 경우 모델 크기가 커질수록 성능이 향상되는 경향을 보였다.
학습 데이터 비율과의 관계: LlaMa2 모델의 학습 데이터 비율과 본 연구에서 제안한 유사도 지표 간에 강한 상관관계가 있음을 확인했다.
이러한 실험 결과를 통해 제안한 Language Ranker 방법이 LLM의 다국어 성능을 효과적으로 측정할 수 있음을 보여준다.
통계
영어 데이터가 LlaMa2 모델 학습 데이터의 89.7%를 차지한다.
독일어, 프랑스어, 스웨덴어, 중국어의 LlaMa2 모델 학습 데이터 비율은 각각 0.17%, 0.16%, 0.15%, 0.13%이다.
폴란드어, 베트남어, 핀란드어, 노르웨이어의 LlaMa2 모델 학습 데이터 비율은 각각 0.09%, 0.08%, 0.03%, 0.03%이다.
인용구
"LLMs with different sizes have the same partial order of performance."
"There is a strong correlation between LlaMa2's performance in different languages and the proportion of the pre-training corpus."