核心概念
大規模言語モデルは、提供された矛盾する知識を統合し、推論することが困難である。本研究では、異なるレベルの推論スキルを必要とする知識の矛盾を解消する能力を評価するための新しいデータセット「Knot」を構築し、主要な言語モデルの性能を分析する。
要約
本研究は、大規模言語モデル(LLM)に提供された知識が既存の知識と矛盾する場合の対処能力を調査している。LLMに提供された知識は最新の情報を含むが、LLMのパラメータに蓄積された知識が古くなっている可能性がある。このため、LLMが矛盾する知識を統合し、推論する能力を検証する必要がある。
本研究では以下の3つのレベルの推論スキルを必要とする知識の矛盾解消能力を評価するデータセット「Knot」を構築した:
直接抽出(Knot-S): 提供された文書から矛盾する知識を直接抽出する
明示的推論(Knot-E): 提供された推論経路に基づいて矛盾する知識を統合して推論する
暗示的推論(Knot-I): 推論経路を自ら推測し、矛盾する知識を統合して推論する
実験の結果、主要なLLMは知識の矛盾を直接抽出する能力は高いが、推論を必要とする場合は苦手であることが分かった。また、プロンプティングやデコーディングなどの訓練不要の手法は万能ではなく、微調整が必要であることが示された。さらに、モデルサイズを大きくすることで明示的推論能力は向上するが、暗示的推論能力は必ずしも向上しないことが明らかになった。
統計
Lionel Messi plays for Inter Miami CF.
Lionel Messi's club plays in Major League Soccer.
Lionel Messi lives in Miami.