Conceitos Básicos
본 논문에서는 유럽 연합의 24개 공식 언어를 모두 지원함으로써 유럽의 언어적 다양성을 포용하도록 설계된 두 가지 다국어 대규모 언어 모델(LLM)의 개발 과정과 초기 연구 결과를 제시합니다.
Resumo
OpenGPT-X 프로젝트: 유럽 중심 다국어 LLM 개발을 위한 진전 보고
본 연구 논문에서는 유럽 연합 24개 공식 언어를 모두 지원하는 두 가지 다국어 대규모 언어 모델(LLM) 개발을 목표로 하는 OpenGPT-X 프로젝트의 초기 결과를 소개합니다. 영어 중심적인 기존 LLM의 한계를 극복하고자, 본 프로젝트에서는 약 60%의 비영어 데이터를 포함하는 데이터 세트와 맞춤형 다국어 토크나이저를 사용하여 모델을 학습시켰습니다. 본 논문에서는 모델 개발 원칙, 데이터 처리 기술, 토크나이저 최적화 및 학습 방법론을 자세히 설명합니다. 또한, 유럽 언어 버전의 ARC, HellaSwag, MMLU 및 TruthfulQA에서의 성능을 통해 다국어 벤치마크에서 경쟁력 있는 성능을 보여줍니다.
대규모 언어 모델(LLM)은 다양한 응용 분야에 적용될 수 있는 잠재력을 가진 혁신적인 기술입니다. 그러나 현재 오픈 소스 모델은 주로 영어 중심적이어서 유럽 연합과 같은 다국어 환경에서 사용이 제한됩니다. 또한, 기존 연구들은 모델 개발에 대한 세부 정보, 특히 데이터 세트 구성 및 필터링에 대한 정보를 충분히 공개하지 않아 재현성을 저해하는 경우가 많습니다.