Core Concepts
LLMsの読解力は、パラメトリック知識と仮説的ステートメントに影響される。単純な肯定文や否定文については高精度だが、モーダルや条件文などの意味的により複雑な文脈では大きな誤りを犯す。
Abstract
本研究は、LLMsの読解力を評価する際に、モデルの内部知識の影響を排除する必要性を示している。
実在する事実と矛盾するデータ(矛盾データ)や、モデルの知識と関係のない架空のデータ(架空データ)を使うことで、知識の影響を排除できることを示した。
架空データを使った評価では、LLMsが単純な肯定文や否定文については高精度だが、モーダルや条件文などの意味的により複雑な文脈では大きな誤りを犯すことが明らかになった。
矛盾データを使った評価では、LLMsがモーダルや条件文の文脈で自身の内部知識に頼る傾向があることが分かった。つまり、文脈に忠実に答えられないことが示された。
様々な prompting 手法を試しても、LLMsの上記の課題は解決されなかった。
Stats
LLMsは、単純な肯定文や否定文については高精度だが、モーダルや条件文などの意味的により複雑な文脈では大きな誤りを犯す。
LLMsは、モーダルや条件文の文脈で自身の内部知識に頼る傾向がある。つまり、文脈に忠実に答えられない。
Quotes
"LLMsの読解力は、パラメトリック知識と仮説的ステートメントに影響される。"
"単純な肯定文や否定文については高精度だが、モーダルや条件文などの意味的により複雑な文脈では大きな誤りを犯す。"
"LLMsはモーダルや条件文の文脈で自身の内部知識に頼る傾向がある。つまり、文脈に忠実に答えられない。"