数学推論タスクにおける報酬モデルの堅牢性を評価するための新しい設計手法を提案し、その有効性を検証する。
本論文は、ロマニア語による数学的推論ベンチマーク「RoMath」を提案する。RoMathは、ロマニア語の数学問題を網羅する3つのデータセット(RoMath-Baccalaureate、RoMath-Competitions、RoMath-Synthetic)から構成される。これにより、英語以外の言語における数学モデルの開発を促進し、多言語AIの発展に寄与することを目的とする。
我々は、208百万パラメータの新しい自己回帰型デコーダーベースの数学言語モデル「PARAMANU-GANITA」を開発しました。この数学専門モデルは、わずか146時間のA100トレーニングで、大規模な言語モデルを大幅に上回る数学的推論能力を示しました。
数学的推論の質を評価する際は、最終的な答えの正確性だけでなく、推論プロセスの正確性と効率性も考慮する必要がある。
大規模言語モデルの数学的推論能力を向上させるため、前方向の中間推論状態予測タスクと逆方向の指示再構築タスクからなる双方向指示チューニング戦略を提案する。
大規模言語モデルは数学的推論問題を解くことができるようになってきたが、その解答には論理的および計算上の誤りが含まれている。本研究では、モデルの訓練データに十分な数の形式数学の例が含まれていれば、モデルに自動的に非形式的な数学的記述を形式的な言語(Isabelle)に翻訳させることができ、その翻訳結果を自動定理証明システムで検証することで、正しい解答を識別できることを示す。