核心概念
JetMoE-8B는 100만 달러 미만의 비용으로 훈련되었지만 Llama2-7B 모델을 능가하는 성능을 보여주며, JetMoE-8B-Chat은 Llama2-13B-Chat 모델을 능가하는 성과를 달성했다. 이는 대규모 언어 모델 훈련이 일반적으로 생각되는 것보다 훨씬 더 비용 효율적일 수 있음을 시사한다.
摘要
이 보고서는 JetMoE-8B라는 새로운 대규모 언어 모델(LLM)을 소개한다. JetMoE-8B는 1.25T 토큰의 혼합 오픈 소스 코퍼스와 30,000 H100 GPU 시간을 사용하여 10만 달러 미만의 비용으로 훈련되었다.
JetMoE-8B는 주목할 만한 성과를 보였다. Llama2-7B 모델을 능가하고 Llama2-13B-Chat 모델을 능가하는 JetMoE-8B-Chat을 개발했다. 이는 대규모 언어 모델 훈련이 일반적으로 생각되는 것보다 훨씬 더 비용 효율적일 수 있음을 보여준다.
JetMoE-8B는 주목할 만한 몇 가지 특징을 가지고 있다:
- 오픈 소스 데이터셋과 훈련 코드만을 사용하여 개방성과 학계 친화성을 확보했다.
- 주의 집중과 피드포워드 레이어에 모두 희소 활성화를 적용하여 계산 비용을 크게 줄였다.
- 데이터 혼합에 대한 자세한 정보를 제공하여 향후 오픈 파운데이션 모델 개발을 촉진한다.
이러한 혁신을 통해 JetMoE-8B는 더 접근 가능하고 효율적인 대규모 언어 모델 개발을 위한 길을 열었다. 이를 통해 AI 연구 커뮤니티 전체에 혜택을 줄 것으로 기대된다.
统计
JetMoE-8B는 8B 매개변수를 가지고 있지만 각 입력 토큰에 대해 2B만 활성화하여 Llama2-7B 대비 약 70%의 추론 계산을 줄였다.
JetMoE-8B는 1.25T 토큰의 혼합 오픈 소스 데이터셋을 사용하여 훈련되었다.
JetMoE-8B는 30,000 H100 GPU 시간을 사용하여 훈련되었다.
引用
"JetMoE-8B는 Llama2-7B 모델을 능가하고 JetMoE-8B-Chat은 Llama2-13B-Chat 모델을 능가하는 성과를 보였다. 이는 대규모 언어 모델 훈련이 일반적으로 생각되는 것보다 훨씬 더 비용 효율적일 수 있음을 시사한다."
"JetMoE-8B는 8B 매개변수를 가지고 있지만 각 입력 토큰에 대해 2B만 활성화하여 Llama2-7B 대비 약 70%의 추론 계산을 줄였다."