我々は、208百万パラメータの新しい自己回帰型デコーダーベースの数学言語モデル「PARAMANU-GANITA」を開発しました。この数学専門モデルは、わずか146時間のA100トレーニングで、大規模な言語モデルを大幅に上回る数学的推論能力を示しました。
数学的推論の質を評価する際は、最終的な答えの正確性だけでなく、推論プロセスの正確性と効率性も考慮する必要がある。
大規模言語モデルの数学的推論能力を向上させるため、前方向の中間推論状態予測タスクと逆方向の指示再構築タスクからなる双方向指示チューニング戦略を提案する。
大規模言語モデルは数学的推論問題を解くことができるようになってきたが、その解答には論理的および計算上の誤りが含まれている。本研究では、モデルの訓練データに十分な数の形式数学の例が含まれていれば、モデルに自動的に非形式的な数学的記述を形式的な言語(Isabelle)に翻訳させることができ、その翻訳結果を自動定理証明システムで検証することで、正しい解答を識別できることを示す。