数学問題解答の自動評価を改善するための包括的な数学評価ツールキットを提案する。
本論文は、潜在空間における複数の数学演算の近似と合成の可能性を調査する。特に、表現パラダイムと符号化メカニズムを調査し、異なる数学演算の符号化と単一演算内の専門化の間のトレードオフ、多段階導出とオーバーディストリビューション一般化の能力を分析する。
大規模言語モデル(LLMs)を使用して高品質な数学的推論データを生成するシンプルでスケーラブルな方法、MathScaleを提案します。
大規模言語モデル(LLMs)の数学推論タスクにおける新たな能力を探求し、オープンソースLLMsの能力向上を目指す。