Core Concepts
본 연구는 LLaMA 2 모델을 기반으로 하여 534개 언어를 지원하는 MaLA-500 모델을 개발하였다. 어휘 확장과 지속적 사전 학습을 통해 MaLA-500은 기존 다국어 언어 모델들보다 저자원 언어에서 우수한 성능을 보였다.
Abstract
본 연구는 대규모 언어 모델의 다국어 적응에 관한 내용을 다루고 있다. 기존 다국어 언어 모델들은 주로 100개 언어 내외를 지원하는 데 그쳤지만, 본 연구에서는 LLaMA 2 모델을 기반으로 하여 534개 언어를 지원하는 MaLA-500 모델을 개발하였다.
MaLA-500 모델 개발을 위해 다음과 같은 과정을 거쳤다:
Glot500-c 데이터셋을 활용하여 어휘 확장을 수행하였다. 이를 통해 LLaMA 2의 32,000개 어휘를 260,164개로 확장하였다.
Glot500-c 데이터셋을 활용하여 LLaMA 2 모델에 대한 지속적 사전 학습을 진행하였다. 이때 LoRA 기법을 활용하여 효율적인 학습을 수행하였다.
내재적 평가와 외재적 평가를 통해 MaLA-500의 성능을 검증하였다. 내재적 평가에서는 Glot500-c 테스트 셋과 Parallel Bible Corpus에서 우수한 성능을 보였다. 외재적 평가에서는 SIB200과 Taxi1500 벤치마크에서 기존 다국어 언어 모델들을 크게 앞섰다.
본 연구는 대규모 언어 모델의 다국어 적응 기술을 발전시켜 저자원 언어에 대한 접근성을 높이는 데 기여하였다. 향후 연구에서는 기계 번역 등 다양한 응용 분야로의 확장을 계획하고 있다.
Stats
본 연구에서 사용한 Glot500-c 데이터셋은 총 534개 언어로 구성되어 있으며, 언어별 문장 수는 10,000개에서 63,000,000개 사이로 편차가 크다.
지속적 사전 학습에 사용된 문장 수는 언어별 600,000개에서 8,000,000개 사이이며, 총 10억 개의 문장을 활용하였다.
어휘 확장을 위해 사용된 문장 수는 언어별 30,000개에서 400,000개 사이이며, 총 5,000만 개의 문장을 활용하였다.
Quotes
"본 연구는 대규모 언어 모델의 다국어 적응 기술을 발전시켜 저자원 언어에 대한 접근성을 높이는 데 기여하였다."
"향후 연구에서는 기계 번역 등 다양한 응용 분야로의 확장을 계획하고 있다."