핵심 개념
언어 불균형이 다국어 언어 모델의 성능을 향상시킬 수 있다.
초록
이 연구는 언어 불균형이 다국어 언어 모델의 일반화 능력을 향상시킬 수 있다는 것을 보여준다.
먼저 완벽하게 동등한 복제 언어를 사용한 실험에서 다음을 관찰했다:
- 언어 데이터가 균형을 이루는 경우 모델의 성능이 단일어 모델보다 낮다.
- 하지만 주요 언어가 있는 불균형 설정에서는 주요 언어에 비해 자주 나타나지 않는 언어의 성능이 크게 향상된다.
- 이는 언어 간 표현의 정렬이 향상되어 언어 간 일반화가 증가하기 때문이다.
이러한 효과는 모델 크기나 학습 시간을 늘릴수록 더 강해진다. 대규모 모델에서는 90:10의 언어 불균형 설정이 50:50 균형 설정보다 두 언어 모두에서 더 나은 성능을 보인다.
이러한 통찰을 바탕으로 학습 데이터를 변경하지 않고도 모든 복제 언어의 성능을 향상시킬 수 있는 학습 방식을 설계했다.
마지막으로 영어와 프랑스어 데이터로 실험을 확장했다. 여기서도 언어 불균형이 저자원 언어의 성능을 향상시키는 경향이 관찰되었지만, 복제 언어 실험만큼 강하지는 않았다. 이는 실제 언어 간 차이로 인한 것으로 보인다.
통계
복제 언어 실험에서 90:10 언어 불균형 설정은 단일어 모델 대비 EN2에서 2배 이상의 토큰 효율성을 달성했다.
10개 언어 실험에서 50% 주요 언어 설정은 단일어 모델 대비 1.7배 높은 토큰 효율성을 보였다.
영어-프랑스어 실험에서 90:10 언어 불균형 설정은 저자원 언어(프랑스어)에서 최대 1.27배의 토큰 효율성을 달성했다.
인용구
"언어 불균형이 다국어 일반화를 향상시킬 수 있다는 것은 매우 직관적이지 않은 새로운 요인이다."
"언어 불균형의 효과는 모델 크기나 학습 시간을 늘릴수록 더 강해진다."
"언어 불균형이 실제 언어 쌍에서 다국어 일반화에 미치는 영향은 명확하지 않다."