本レポートでは、JetMoE-8Bという新しい大規模言語モデルを紹介する。JetMoE-8Bは、1.25Tトークンの慎重に混合された公開データセットと30,000時間のH100 GPUを使って、わずか100万ドル未満の予算で訓練されたにもかかわらず、優れた性能を発揮している。
JetMoE-8Bは、注意機構とフィードフォワード層の両方にスパース活性化を適用するSparsely-gated Mixture-of-Experts (SMoE)アーキテクチャを採用している。これにより、JetMoE-8Bは8B個のパラメータを持ちながら、各入力トークンに対して2B個のパラメータしか活性化せず、Llama2-7Bと比べて推論計算を約70%削減できる。
さらに、JetMoEは公開データセットと公開トレーニングコードのみを使用しており、アカデミア研究に適したオープンで友好的なモデルである。本レポートでは、将来の公開基盤モデルの開発を促進するため、詳細なトレーニングパラメータとデータ混合を公開している。
JetMoE-8Bは、OpenLLMベンチマークで既存の大規模言語モデルを上回る性能を示し、さらにコード生成タスクでも優れた結果を得ている。これらの成果は、効率的で低コストな大規模言語モデルの開発が可能であることを示しており、AI研究コミュニティにとって重要な一歩となる。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Yikang Shen,... alle arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07413.pdfDomande più approfondite