核心概念
我々は、208百万パラメータの新しい自己回帰型デコーダーベースの数学言語モデル「PARAMANU-GANITA」を開発しました。この数学専門モデルは、わずか146時間のA100トレーニングで、大規模な言語モデルを大幅に上回る数学的推論能力を示しました。
要約
本論文では、数学専門の自己回帰型デコーダーモデル「PARAMANU-GANITA」を紹介しています。このモデルは、数学テキスト、プログラミングソースコード、数学問題回答ペアなどから構成された高品質な数学コーパスを使って、わずか4096のコンテキストサイズで頭から学習されています。
PARAMANU-GANITAは、GSM8kベンチマークでは、LLaMa-1 7B、LLaMa-2 7B、Falcon 7B、PaLM 8B、Minerva 8Bなどの大規模言語モデルを大幅に上回る性能を示しました。さらに、PaLM 62B、Falcon 40B、LLaMa-1 33Bなどの巨大モデルにも匹敵する成績を収めています。これは、数学的推論能力は必ずしも膨大なパラメータ数を必要としないことを示しています。
PARAMANU-GANITAは、LLEMMA 7Bなどの数学専門モデルと比べても優れた成績を収めています。LLEMMA 7Bは23,000時間もの大規模な計算リソースを使って学習されていますが、PARAMANU-GANITAはわずか146時間の学習で同等以上の性能を発揮しています。このことから、ドメイン特化型の言語モデルを頭から学習する方が、既存の大規模モデルを継続学習するよりもはるかに効率的であることが分かります。
今回は、我々の数学コーパスの一部のみを使って学習を行いましたが、今後さらに大規模な数学コーパスを使って学習を行えば、PARAMANU-GANITAのさらなる性能向上が期待できると考えています。
統計
PARAMANU-GANITAは208百万パラメータしかないにもかかわらず、LLaMa-1 7Bに比べて28.4ポイント、LLaMa-2 7Bに比べて27.6ポイント、Falcon 7Bに比べて32.6ポイント、PaLM 8Bに比べて35.3ポイント高い精度を達成しました。
PARAMANU-GANITAはMinerva 8Bに比べて23.2ポイント、LLEMMA-7Bに比べて3.0ポイント高い精度を示しました。
PARAMANU-GANITAはPaLM 62Bに比べて6.4ポイント、Falcon 40Bに比べて19.8ポイント、LLaMa-1 33Bに比べて3.8ポイント、Vicuna 13Bに比べて11.8ポイント高い精度を示しました。
引用
"PARAMANU-GANITAは、LLaMa-1 7Bに比べて28.4ポイント、LLaMa-2 7Bに比べて27.6ポイント、Falcon 7Bに比べて32.6ポイント、PaLM 8Bに比べて35.3ポイント高い精度を達成しました。"
"PARAMANU-GANITAはMinerva 8Bに比べて23.2ポイント、LLEMMA-7Bに比べて3.0ポイント高い精度を示しました。"
"PARAMANU-GANITAはPaLM 62Bに比べて6.4ポイント、Falcon 40Bに比べて19.8ポイント、LLaMa-1 33Bに比べて3.8ポイント、Vicuna 13Bに比べて11.8ポイント高い精度を示しました。"