本研究では、大規模言語モデルの数学問題解決能力を向上させるための新しいアプローチとして、「自己批評パイプライン」を提案している。
まず、モデル自身から「数学批評モデル」を訓練し、数学的な出力に対するフィードバックを生成する。次に、拒否的微調整と直接選好最適化の2つの段階を経て、モデルの数学問題解決能力を段階的に高めていく。
実験では、ChatGLM3-32Bモデルを用いて、学術的なデータセットだけでなく、実世界の応用シナリオを反映したMATHUSEREVALデータセットでも評価を行った。その結果、提案手法により、言語能力を維持しつつ数学問題解決能力を大幅に向上させることができた。これは、同等のパラメータ数の既存モデルを大きく上回る成果である。
さらに、数学批評モデルの有効性も検証し、GPT-4-0613と同等の性能を示すことができた。提案手法は、ChatGLM-1のオンラインサービスにも適用されている。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yifan Xu,Xia... at arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02893.pdfDeeper Inquiries