Core Concepts
LLMは過剰な計算と推論を生成し、時に間違った答えを導く傾向がある。
Abstract
著者らは、大規模言語モデル(LLMs)が手動で構築された数学QAデータセットGSM8K-Zeroで冗長な計算と推論を生成する傾向を示している。
LLMsは簡単に解決できる質問に対しても長々しい回答を生成し、時には間違った答えを導くことがある。
研究では、RLHFで訓練された7つのLLMsの評価結果やプロキシRMの好み実験結果も提示されている。
Introduction
LLMsはCoT推論ステップを増強し、性能を向上させる。
しかし、LLMsは不要な計算や推論を生成する傾向があり、これが問題となっている。
Dataset: GSM8K-Zero
GSM8K-ZeroはGSM8Kから作成され、質問に含まれる既知情報だけで回答可能な質問を提供する。
冗長性評価では数学演算子(×、+、=)の有無で判断される。
Experiments
GSM8K-Zero上で行われたゼロショットテストでは、多くのLLMsが50%未満の精度を示した。
ChatGPTやLlama-2モデルは不要な計算や推論を生成する傾向があり、正確性に影響を与えている。
Why Do LLMs Generate Redundant Calculations?
RLHFで訓練されたモデルは冗長な出力よりも詳細な出力を好む可能性がある。
プロキシRM実験結果から分かるように、ChatGPTやGPT-4は間違った回答でも長い回答を好む傾向がある。
Stats
LLMs tend to generate redundant calculations and reasoning on a manually constructed math QA dataset, GSM8K-Zero.
GSM8K-Zero contains trivial questions that can be answered without any calculations and reasoning.
Quotes
LLMは簡単に解決できる質問に対しても長々しい回答を生成し... - Content excerpt