本論文は大規模言語モデルの論理的推論能力を包括的に評価しています。
まず、演繹的、帰納的、アブダクティブ、混合形式の4つの推論設定に基づいて15のデータセットを選択し、7つの代表的な大規模言語モデルを評価しました。
次に、単純な正答率だけでなく、答えの正確性、説明の正確性、説明の完全性、説明の冗長性の4つの指標を用いて、より詳細な評価を行いました。さらに、問題のある事例を証拠選択プロセスと推論プロセスの2つの側面から5つのエラータイプに分類し、大規模言語モデルの論理的な欠陥を明らかにしました。
また、知識バイアスの影響を排除するために、中立的なコンテンツを持つ新しいデータセットNeuLRを提案しました。
最終的に、正確性、厳密性、自覚性、積極性、適切性、幻覚性の6つの指標から大規模言語モデルの論理的推論能力を包括的に評価する枠組みを提案しました。これにより、各モデルの長所と短所が明らかになり、今後の研究の方向性が示されました。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問