Alapfogalmak
TeleChat은 3억, 7억, 12억 개의 매개변수를 가진 대규모 언어 모델 모음으로, 광범위한 텍스트 데이터로 사전 학습된 후 인간 선호도에 맞춰 미세 조정되었습니다. 이를 통해 다양한 작업에서 우수한 성능을 달성하며, 7억 및 12억 버전의 모델 체크포인트를 공개하여 향후 연구와 응용 프로그램에 활용할 수 있도록 합니다.
Kivonat
이 기술 보고서에서는 TeleChat이라는 대규모 언어 모델(LLM) 모음을 소개합니다. TeleChat은 3억, 7억, 12억 개의 매개변수를 가지며, 사전 학습 언어 모델과 인간 선호도에 맞춰 미세 조정된 채팅 모델로 구성됩니다.
TeleChat의 사전 학습 단계에서는 영어와 중국어로 된 다양한 텍스트 데이터 트리리언 개를 활용하여 모델을 학습시켰습니다. 이후 감독 학습 및 강화 학습을 통해 인간 선호도에 맞춰 모델을 미세 조정하였습니다.
TeleChat은 언어 이해, 수학, 추론, 코드 생성, 지식 기반 질문 답변 등 다양한 작업에서 우수한 성능을 보였습니다. 특히 공개된 벤치마크에서 유사 규모의 다른 모델들과 비교해 경쟁력 있는 결과를 달성했습니다. 향후 연구와 응용 프로그램에 활용될 수 있도록 TeleChat의 7억 및 12억 버전 모델 체크포인트와 코드, 일부 사전 학습 데이터를 공개합니다.
Statisztikák
사전 학습 데이터로 총 0.8조, 1.0조, 1.2조 개의 토큰을 사용했습니다.
TeleChat-3B 모델의 경우 14개의 레이어, 16개의 주의 집중 헤드, 4096의 은닉 크기, 13312의 피드포워드 네트워크 크기, 82944의 어휘 크기를 가집니다.
TeleChat-7B 모델의 경우 30개의 레이어, 32개의 주의 집중 헤드, 4096의 은닉 크기, 12288의 피드포워드 네트워크 크기, 160256의 어휘 크기를 가집니다.
TeleChat-12B 모델의 경우 38개의 레이어, 32개의 주의 집중 헤드, 5120의 은닉 크기, 12288의 피드포워드 네트워크 크기, 160256의 어휘 크기를 가집니다.
Idézetek
"TeleChat는 3억, 7억, 12억 개의 매개변수를 가진 대규모 언어 모델 모음으로, 광범위한 텍스트 데이터로 사전 학습된 후 인간 선호도에 맞춰 미세 조정되었습니다."
"TeleChat은 언어 이해, 수학, 추론, 코드 생성, 지식 기반 질문 답변 등 다양한 작업에서 우수한 성능을 보였습니다."
"향후 연구와 응용 프로그램에 활용될 수 있도록 TeleChat의 7억 및 12억 버전 모델 체크포인트와 코드, 일부 사전 학습 데이터를 공개합니다."