toplogo
Sign In

再帰的なフィードバック連鎖が、冗長な促しによるパフォーマンスの低下を防止する


Core Concepts
意味のない反復的なフィードバックは、回答の品質を低下させる可能性があることを示唆します。
Abstract
大規模言語モデル(LLMs)は複雑な推論タスクに苦しむことがよくあります。この研究では、Chain-of-Feedback(CoF)という新しい設定を定義して、意味のないフィードバックが回答の品質を低下させる可能性があることを明らかにします。また、Recursive Chain-of-Feedback(R-CoF)という新しい手法を提案しています。R-CoFは、コンピュータサイエンスの再帰ロジックに従って、初期の不正確な応答を修正します。これにより、LLMsが正しく応答できない多くの質問がR-CoFを使用して回答できることが示されています。
Stats
大規模言語モデル(LLMs)は複雑な推論タスクに苦しむことがよくあります。 意味のないフィードバックは回答の品質を低下させる可能性があります。 R-CoFは初期の不正確な応答を再帰的に修正します。 R-CoFは再帰ロジックに従って不正確な推論ステップを修正します。 R-CoFは多くの質問で効果的です。
Quotes
意味のある情報ではなく、「もう一度試してみてください」という単純な促しでLLMsを刺激する方法について過去の範例から学ぶことも重要です。 - Shi et al., 2023 私たちは過去のパラダイムから異議申し立てました。追加情報ではなく単純にLLMsに「もう一度試してみてください」と促すことで解決策へ到達する可能性が低下することを示しています。 - Lei et al., 2023 多くの研究では、LLMsは間違った推論ステップを生成する傾向があることや無関係な文脈で気晴らしする可能性があることが示されています。 - Mündler et al., 2023 R-CoFは既存のエラー訂正手法よりも優れており、入力問題全体ではなく問題を簡素化する新しい方法です。 - Wang et al., 2023 我々はR-CoF実験結果から見込まれる全体的精度向上について予測しています。 - An et al., 2023

Deeper Inquiries

他方向へ拡張した議論:意味のある情報ではなく単純な促しが回答品質低下へつながるメカニズムは何か?

CoF設定において、無意味なフィードバック(例:「もう一度試してみてください」)を繰り返し求めることが、回答の品質を低下させるメカニズムとして機能します。このような行動は、言語モデルが正確で適切な応答を提供する可能性を減少させます。初期の結果から見えてくる傾向は、無意味なフィードバックが回答を悪化させる傾向にあることです。 この現象は、言語モデルが新たに学習や修正するための有益な情報や指針を提供されずに同じ問題に取り組むことで深刻化します。その結果、本来望まれた解決策から逸脱する可能性が高まります。
0