Core Concepts
LLMの予測の信頼性を高め、その根拠を説明可能にするため、複数のLLMエージェントによる熟議プロセスを提案する。
Abstract
本研究では、LLMの予測の信頼性を高め、その根拠を説明可能にするため、多エージェントによる熟議プロセスを提案している。
まず、ステージ1では、異なる推論手法を持つ専門家エージェントを選択し、それぞれが独立に回答と自信度を生成する。次に、ステージ2では、一般エージェントが専門家エージェントの意見を聞き、議論し、自身の回答と自信度を調整する。この過程で、各エージェントは自身の意見の根拠を説明し、他者からフィードバックを受ける。最終的に、多数決によって集約された回答と自信度が出力される。
この手法は、様々な分野のQAタスクで評価され、従来手法と比べて優れた校正性能を示した。特に、数学的推論やシンボリック推論、曖昧性解消などのタスクで顕著な効果が見られた。これは、エージェントの多様な推論能力と熟議プロセスによって、LLMの信頼性と説明可能性が向上したためと考えられる。
Stats
正解率と自信度の乖離が大きいLLMでは、本手法によって自信度の校正が可能である。
数学的推論やシンボリック推論、曖昧性解消などのタスクでは、本手法の効果が特に大きい。
専門家エージェントの選択と、エージェント間の議論プロセスが、LLMの信頼性向上に重要な役割を果たしている。
Quotes
"LLMの予測の信頼性を高め、その根拠を説明可能にするため、複数のLLMエージェントによる熟議プロセスを提案する。"
"本手法は、様々な分野のQAタスクで評価され、従来手法と比べて優れた校正性能を示した。"
"エージェントの多様な推論能力と熟議プロセスによって、LLMの信頼性と説明可能性が向上した。"