核心概念
다국어 대규모 언어 모델은 고자원 언어에서 저자원 언어로의 지식 전이를 달성하기 위해 개발되었지만, 언어 불균형, 다국어 정렬 및 고유한 편향과 같은 중요한 한계와 과제가 여전히 존재한다.
要約
이 논문은 다국어 대규모 언어 모델(MLLM)에 대한 종합적인 분석을 제공한다.
첫째, MLLM의 발전, 핵심 기술 및 다국어 능력에 대한 개요를 제시한다.
둘째, MLLM의 학습에 널리 사용되는 다국어 코퍼스와 다국어 데이터셋을 탐구한다. 이를 통해 MLLM의 언어 분포와 언어 가족 구성을 이해할 수 있다.
셋째, 기존 연구를 바탕으로 다국어 표현 정렬에 대해 조사하고, MLLM이 범언어적 표현을 학습할 수 있는지 분석한다.
넷째, MLLM의 편향 유형, 평가 지표 및 기존 편향 해소 기술을 논의한다.
마지막으로, 기존 과제와 유망한 연구 방향을 제시한다.
統計
BLOOM 모델은 46개 언어를 지원하며, 영어(30.03%), 간체 중국어(16.16%), 프랑스어(12.9%), 스페인어(10.85%), 포르투갈어(4.91%), 아랍어(4.6%) 등으로 구성된다.
PaLM 2 모델의 비영어 언어 구성은 스페인어(11.51%), 중국어(10.19%), 러시아어(8.73%) 등이다.
GLM-130B 모델은 영어(48%)와 중국어(52%)로 균형을 이루고 있다.
引用
"MLLMs는 고자원 언어에서 저자원 언어로의 지식 전이를 달성하기 위해 개발되었지만, 언어 불균형, 다국어 정렬 및 고유한 편향과 같은 중요한 한계와 과제가 여전히 존재한다."
"MLLMs는 더 많은 언어를 지원할수록 저자원 언어의 성능이 저하되는 '다국어의 저주' 현상을 겪는다."
"MLLMs의 학습 데이터에서 영어가 압도적으로 많은 비중을 차지하고 있어, 영어 중심적인 능력을 보이게 된다."