本論文では、数学専門の自己回帰型デコーダーモデル「PARAMANU-GANITA」を紹介しています。このモデルは、数学テキスト、プログラミングソースコード、数学問題回答ペアなどから構成された高品質な数学コーパスを使って、わずか4096のコンテキストサイズで頭から学習されています。
PARAMANU-GANITAは、GSM8kベンチマークでは、LLaMa-1 7B、LLaMa-2 7B、Falcon 7B、PaLM 8B、Minerva 8Bなどの大規模言語モデルを大幅に上回る性能を示しました。さらに、PaLM 62B、Falcon 40B、LLaMa-1 33Bなどの巨大モデルにも匹敵する成績を収めています。これは、数学的推論能力は必ずしも膨大なパラメータ数を必要としないことを示しています。
PARAMANU-GANITAは、LLEMMA 7Bなどの数学専門モデルと比べても優れた成績を収めています。LLEMMA 7Bは23,000時間もの大規模な計算リソースを使って学習されていますが、PARAMANU-GANITAはわずか146時間の学習で同等以上の性能を発揮しています。このことから、ドメイン特化型の言語モデルを頭から学習する方が、既存の大規模モデルを継続学習するよりもはるかに効率的であることが分かります。
今回は、我々の数学コーパスの一部のみを使って学習を行いましたが、今後さらに大規模な数学コーパスを使って学習を行えば、PARAMANU-GANITAのさらなる性能向上が期待できると考えています。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Mitodru Niyo... at arxiv.org 04-23-2024
https://arxiv.org/pdf/2404.14395.pdfDeeper Inquiries