이 논문은 다국어 대규모 언어 모델(MLLM)에 대한 종합적인 분석을 제공한다.
첫째, MLLM의 발전, 핵심 기술 및 다국어 능력에 대한 개요를 제시한다.
둘째, MLLM의 학습에 널리 사용되는 다국어 코퍼스와 다국어 데이터셋을 탐구한다. 이를 통해 MLLM의 언어 분포와 언어 가족 구성을 이해할 수 있다.
셋째, 기존 연구를 바탕으로 다국어 표현 정렬에 대해 조사하고, MLLM이 범언어적 표현을 학습할 수 있는지 분석한다.
넷째, MLLM의 편향 유형, 평가 지표 및 기존 편향 해소 기술을 논의한다.
마지막으로, 기존 과제와 유망한 연구 방향을 제시한다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yuemei Xu,Li... lúc arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00929.pdfYêu cầu sâu hơn