本論文では、大規模言語モデル(LLM)の推論能力を向上させるための新しいフレームワークであるMAGICOREを提案している。
MAGICOREは以下の3つの主要な課題に取り組む:
過剰な洗練: 全ての問題を一様に洗練すると、正解だった解答が誤りに変わってしまう可能性がある。MAGICOREは問題の難易度に応じて、簡単な問題には粗粒度な集約を、難しい問題には細粒度で反復的な洗練を適用する。
エラーの特定と修正の困難さ: LLMは自身のミスを特定し、それを的確に修正することが難しい。MAGICOREでは、外部の報酬モデル(RM)の step-wise スコアを使ってエラーを特定し、多エージェントシステムを用いて効果的な洗練を行う。
洗練の不足: 洗練の反復回数をどのように決めるかが非自明である。MAGICOREでは、洗練された解答を再評価し、必要に応じて更なる洗練を行う。
具体的な手順は以下の通り:
この手法により、5つの数学推論データセットとLlama-3-8BおよびGPT-3.5の2つのLLMで、一貫して強力な性能向上が得られることが示された。特に、MAGICOREの1回目の反復でも、ベースラインの手法を上回る結果が得られた。また、MAGICOREは反復を重ねるほど性能が向上し続けるのに対し、ベースラインは頭打ちになる傾向が見られた。
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Justin Chih-... : arxiv.org 09-19-2024
https://arxiv.org/pdf/2409.12147.pdfDaha Derin Sorular