本論文では、大規模言語モデル(LLM)の推論能力を自己改善する手法「SELF-EXPLORE」を提案している。
LLMは大量の根拠(CoT Fine-tuning)を学習することで推論能力が向上するが、人手による根拠の取得や他の高性能モデルからの根拠の取得は非効率的である。
そこで本手法では、LLMに自身の生成した根拠の中で最初の誤りの箇所(最初の落とし穴)を探索させ、その信号を細粒度の報酬として使うことで、推論能力の向上を図る。
GSM8K及びMATHデータセットで、3つのLLMモデルに対して平均11.57%及び2.89%の性能向上を達成した。
また、最初の落とし穴のみを抑制する細粒度の報酬設計が、単純な正解/不正解の報酬設計よりも有効であることを示した。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Hyeonbin Hwa... a las arxiv.org 04-17-2024
https://arxiv.org/pdf/2404.10346.pdfConsultas más profundas