이 연구는 언어 불균형이 다국어 언어 모델의 일반화 능력을 향상시킬 수 있다는 것을 보여준다.
먼저 완벽하게 동등한 복제 언어를 사용한 실험에서 다음을 관찰했다:
이러한 효과는 모델 크기나 학습 시간을 늘릴수록 더 강해진다. 대규모 모델에서는 90:10의 언어 불균형 설정이 50:50 균형 설정보다 두 언어 모두에서 더 나은 성능을 보인다.
이러한 통찰을 바탕으로 학습 데이터를 변경하지 않고도 모든 복제 언어의 성능을 향상시킬 수 있는 학습 방식을 설계했다.
마지막으로 영어와 프랑스어 데이터로 실험을 확장했다. 여기서도 언어 불균형이 저자원 언어의 성능을 향상시키는 경향이 관찰되었지만, 복제 언어 실험만큼 강하지는 않았다. 이는 실제 언어 간 차이로 인한 것으로 보인다.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Anto... klokken arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07982.pdfDypere Spørsmål