Core Concepts
意味のない反復的なフィードバックは、回答の品質を低下させる可能性があることを示唆します。
Abstract
大規模言語モデル(LLMs)は複雑な推論タスクに苦しむことがよくあります。この研究では、Chain-of-Feedback(CoF)という新しい設定を定義して、意味のないフィードバックが回答の品質を低下させる可能性があることを明らかにします。また、Recursive Chain-of-Feedback(R-CoF)という新しい手法を提案しています。R-CoFは、コンピュータサイエンスの再帰ロジックに従って、初期の不正確な応答を修正します。これにより、LLMsが正しく応答できない多くの質問がR-CoFを使用して回答できることが示されています。
Stats
大規模言語モデル(LLMs)は複雑な推論タスクに苦しむことがよくあります。
意味のないフィードバックは回答の品質を低下させる可能性があります。
R-CoFは初期の不正確な応答を再帰的に修正します。
R-CoFは再帰ロジックに従って不正確な推論ステップを修正します。
R-CoFは多くの質問で効果的です。
Quotes
意味のある情報ではなく、「もう一度試してみてください」という単純な促しでLLMsを刺激する方法について過去の範例から学ぶことも重要です。 - Shi et al., 2023
私たちは過去のパラダイムから異議申し立てました。追加情報ではなく単純にLLMsに「もう一度試してみてください」と促すことで解決策へ到達する可能性が低下することを示しています。 - Lei et al., 2023
多くの研究では、LLMsは間違った推論ステップを生成する傾向があることや無関係な文脈で気晴らしする可能性があることが示されています。 - Mündler et al., 2023
R-CoFは既存のエラー訂正手法よりも優れており、入力問題全体ではなく問題を簡素化する新しい方法です。 - Wang et al., 2023
我々はR-CoF実験結果から見込まれる全体的精度向上について予測しています。 - An et al., 2023