본 연구는 대규모 언어 모델(LLM)의 다국어 성능을 정량적으로 측정하기 위한 방법을 제안한다.
언어 간 성능 격차 측정: 영어 데이터에 대한 LLM의 성능을 기준으로 삼아, 다른 언어 데이터에 대한 LLM의 성능을 코사인 유사도로 측정한다. 이를 통해 언어 간 성능 격차를 정량화할 수 있다.
다양한 LLM 비교: 4개의 오픈소스 LLM(LlaMa2, Qwen, Mistral, Gemma)을 대상으로 실험을 수행했다. 실험 결과, 고자원 언어와 저자원 언어 간 성능 격차가 뚜렷하게 나타났으며, 다양한 LLM 간 성능 순위가 유사한 것으로 확인되었다.
모델 크기와 성능: 동일한 LLM 모델(Qwen1.5)에 대해 크기를 달리하여 실험한 결과, 고자원 언어의 경우 모델 크기가 커질수록 성능이 오히려 저하되는 반면, 저자원 언어의 경우 모델 크기가 커질수록 성능이 향상되는 경향을 보였다.
학습 데이터 비율과의 관계: LlaMa2 모델의 학습 데이터 비율과 본 연구에서 제안한 유사도 지표 간에 강한 상관관계가 있음을 확인했다.
이러한 실험 결과를 통해 제안한 Language Ranker 방법이 LLM의 다국어 성능을 효과적으로 측정할 수 있음을 보여준다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문