이 논문은 AURORA-M이라는 새로운 오픈소스 다국어 언어 모델을 소개한다. AURORA-M은 기존 다국어 언어 모델의 한계를 극복하고자 개발되었다.
첫째, AURORA-M은 영어, 핀란드어, 힌디어, 일본어, 베트남어, 코드 등 6개 언어를 지원하는 다국어 모델이다. 기존 모델들이 영어 중심이었던 것과 달리, AURORA-M은 다양한 언어에 걸쳐 균형 잡힌 성능을 보인다.
둘째, AURORA-M은 지속적 사전 학습(continual pretraining) 기법을 활용하여 기존 모델인 StarCoderPlus를 435억 토큰 추가 학습하였다. 이를 통해 총 2조 토큰 규모의 방대한 데이터로 학습되었다. 이러한 지속적 학습 방식은 기존 모델의 성능을 유지하면서도 새로운 기능을 습득할 수 있게 한다.
셋째, AURORA-M은 바이든-해리스 행정부의 인공지능 안전 및 신뢰성 행정명령을 고려하여 설계되었다. 이를 위해 AURORA-M은 인간 검토를 거친 안전 지침 데이터로 추가 학습되었다. 이를 통해 AURORA-M은 기존 레드팀 검증 외에도 행정명령에 명시된 안전성 요구사항을 충족하도록 개발되었다.
AURORA-M의 성능은 다양한 언어와 도메인에 걸쳐 평가되었다. 실험 결과, AURORA-M은 기존 모델 대비 뛰어난 다국어 성능을 보였으며, 영어 및 코드 생성 태스크에서도 경쟁력 있는 성과를 달성했다. 또한 안전성 평가에서도 AURORA-M의 우수한 성능이 확인되었다.
AURORA-M은 오픈소스로 공개되어 연구자와 개발자들이 활용할 수 있다. 이를 통해 다국어 언어 모델 개발에 대한 접근성이 높아지고, 안전하고 신뢰할 수 있는 인공지능 기술 발전에 기여할 것으로 기대된다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Taishi Nakam... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00399.pdfDeeper Inquiries