Centrala begrepp
다국어 대규모 언어 모델은 다국어 자연어 처리 작업에서 탁월한 성과를 거두고 있지만, 이에 대한 종합적인 조사와 분석이 부족한 실정이다. 이 논문에서는 다국어 정렬을 기준으로 다국어 대규모 언어 모델의 최신 동향과 발전 방향을 제시한다.
Sammanfattning
이 논문은 다국어 대규모 언어 모델(MLLM)에 대한 종합적인 조사와 분석을 제공한다.
-
다국어 정렬을 기준으로 MLLM을 두 가지 유형으로 분류:
- 매개변수 조정 정렬: 사전 훈련, 지도 학습 미세 조정, 강화 학습, 하위 작업 미세 조정 등의 단계를 통해 모델 매개변수를 조정하여 다국어 성능을 향상시킨다.
- 매개변수 고정 정렬: 프롬프팅 기반의 다국어 정렬 기법을 사용하여 모델 매개변수를 조정하지 않고도 다국어 성능을 향상시킨다.
-
다국어 사전 훈련, 감독 학습, 강화 학습, 하위 작업 미세 조정 데이터 등 다양한 다국어 데이터 자원을 소개한다.
-
다국어 대규모 언어 모델의 새로운 연구 동향과 과제를 제시한다. 이는 모델의 허구 생성, 지식 편집, 안전성, 공정성, 언어 확장, 멀티모달리티 확장 등을 포함한다.
이 논문은 다국어 대규모 언어 모델 연구 분야에 대한 통합적인 관점을 제공하고, 향후 연구 방향을 제시하여 관련 분야의 발전에 기여할 것으로 기대된다.
Statistik
전 세계에는 7,000개 이상의 언어가 존재한다.
다국어 대규모 언어 모델은 다양한 국가와 언어를 포괄적으로 다룰 수 있는 장점이 있다.
다국어 사전 훈련 데이터에는 성경 말뭉치, MultiUN, OSCAR, CC-100, mC4, Redpajama-v2, Wikipedia, WikiMatrix, WikiExpl 등이 포함된다.
다국어 감독 학습 데이터에는 SupNatInst, OpenAssist, COIG-PClite, xP3-MT, MGSM8KInstruct, CrossAlpaca, MultilingualSIFT, Bactrain-X, xP3, PolyglotPrompt, BUFFET, Vicuna, OverMiss, ShareGPT, BELLE, MultiAlpaca, Guanaco, Alpaca-4 등이 포함된다.
다국어 강화 학습 데이터에는 Okapi, LLaMA2-Chat, ChatGLM, MOSS, Baichuan, Huozi, Qwen, InternLM, TigerBot, YAYI-2, TIM 등이 포함된다.
Citat
"전 세계에는 7,000개 이상의 언어가 존재한다. 세계화가 가속화됨에 따라 대규모 언어 모델의 성공은 다양한 국가와 언어를 서비스할 수 있어야 한다."
"다국어 대규모 언어 모델은 다국어 자연어 처리 작업에서 탁월한 성과를 거두고 있지만, 이에 대한 종합적인 조사와 분석이 부족한 실정이다."