Core Concepts
능동적 망각 기법을 활용한 사전 훈련을 통해 디코더 기반 대규모 언어 모델(LLM)의 교차 언어 전이 능력을 향상시키고, 새로운 언어에 대한 적응력을 높일 수 있다.
Abstract
디코더 언어 모델의 교차 언어 전이 향상을 위한 능동적 망각을 통한 사전 훈련 탐구
본 연구는 능동적 망각(active forgetting) 기법을 활용한 사전 훈련을 통해 디코더 기반 대규모 언어 모델(LLM)의 교차 언어 전이 능력을 향상시키는 것을 목표로 한다.
연구진은 12개 언어의 위키피디아 데이터를 사용하여 기본 LLM(Mbase)을 사전 훈련하고, 능동적 망각 기법을 적용한 모델(AFA)과 표준 최적화 기법을 사용한 모델(BA)을 비교 분석했다. 이후 14개의 새로운 언어로 구성된 데이터셋을 사용하여 모델을 각각 적응시키고, 영어 기반 명령어 미세 조정을 통해 최종 모델을 도출했다. 다국어 벤치마크 6개와 번역 작업을 통해 모델의 성능을 평가하고, mC4 데이터셋을 활용하여 50개 언어에 대한 perplexity와 isotropy를 측정하여 모델의 표현 능력을 비교 분석했다.