JetMoE-8B는 100만 달러 미만의 비용으로 훈련되었지만 Llama2-7B 모델을 능가하는 성능을 보여주며, JetMoE-8B-Chat은 Llama2-13B-Chat 모델을 능가하는 성과를 달성했다. 이는 대규모 언어 모델 훈련이 일반적으로 생각되는 것보다 훨씬 더 비용 효율적일 수 있음을 시사한다.