JetMoE-8Bは、100万ドル未満の予算で訓練されたにもかかわらず、Llama2-7Bを上回る性能を示し、Llama2-13B-Chatを上回るJetMoE-8B-Chatを実現した。これは、大規模言語モデルの訓練がこれまで考えられていたよりもはるかに低コストで実現できることを示唆している。


coremsg

jetmoe-100万ドル未満の予算で-llama2-の性能を達成する


JetMoE: 100万ドル未満の予算で Llama2 の性能を達成する