이 보고서는 JetMoE-8B라는 새로운 대규모 언어 모델(LLM)을 소개한다. JetMoE-8B는 1.25T 토큰의 혼합 오픈 소스 코퍼스와 30,000 H100 GPU 시간을 사용하여 10만 달러 미만의 비용으로 훈련되었다.
JetMoE-8B는 주목할 만한 성과를 보였다. Llama2-7B 모델을 능가하고 Llama2-13B-Chat 모델을 능가하는 JetMoE-8B-Chat을 개발했다. 이는 대규모 언어 모델 훈련이 일반적으로 생각되는 것보다 훨씬 더 비용 효율적일 수 있음을 보여준다.
JetMoE-8B는 주목할 만한 몇 가지 특징을 가지고 있다:
이러한 혁신을 통해 JetMoE-8B는 더 접근 가능하고 효율적인 대규모 언어 모델 개발을 위한 길을 열었다. 이를 통해 AI 연구 커뮤니티 전체에 혜택을 줄 것으로 기대된다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Yikang Shen,... a las arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07413.pdfConsultas más profundas