Core Concepts
Tele-FLM은 52억 매개변수의 다국어 대규모 언어 모델로, 안정적이고 효율적인 사전 학습 기법과 향상된 사실 판단 능력을 갖추고 있다.
Abstract
이 보고서는 Tele-FLM, 52억 매개변수 규모의 다국어 대규모 언어 모델을 소개한다. Tele-FLM은 2조 토큰의 데이터로 사전 학습되었으며, 다국어 언어 모델링 능력과 벤치마크 평가에서 더 큰 모델들과 견줄만한 성능을 보인다. Tele-FLM의 사전 학습 과정은 높은 성공률과 낮은 탄소 배출을 특징으로 한다. 모델 가중치와 기술적 세부 사항, 학습 동역학을 공개하여 대규모 언어 모델 커뮤니티의 성장을 촉진하고 50억 매개변수 이상의 모델 학습 시 발생하는 시행착오 주기를 줄이고자 한다.
Stats
전체 2조 토큰의 데이터로 사전 학습되었으며, 영어와 중국어의 비율은 약 2:1이다.
영어 데이터는 웹 문서, 코드, 도서, 위키백과 등 다양한 도메인을 포함하며, 중국어 데이터는 웹 문서, 도서, 전문 분야 등의 데이터로 구성된다.
데이터 처리 과정에는 텍스트 추출, 정제, 중복 제거 등의 단계가 포함된다.
Quotes
"대규모 언어 모델(LLM)은 언어 이해와 생성 능력에서 뛰어난 성과를 보여주며, 다양한 응용 분야를 가능하게 한다."
"50억 매개변수 이상의 LLM을 효율적으로 확장하는 데에는 시행착오 비용과 계산 자원을 최소화하는 것이 중요한 과제이다."