Core Concepts
大規模言語モデルを用いて、長文文書における自己矛盾を検出し、その能力と限界を明らかにする。
Abstract
本研究では、文書レベルの自己矛盾検出に関する新しいデータセット「CONTRADOC」を提案する。CONTRADOCには、複数のドメインから収集された449の自己矛盾文書と442の非自己矛盾文書が含まれている。自己矛盾の種類や出現範囲など、様々な属性が人手で付与されている。
次に、4つの最新の大規模言語モデル(GPT3.5、GPT4、PaLM2、LLaMAv2)を用いて、CONTRADOCデータセットに対する自己矛盾検出性能を評価する。実験の結果、GPT4が最も良い性能を示し、人間を上回ることが分かった。しかし、GPT4でも文脈依存的な自己矛盾を検出するのは依然として困難であることが明らかになった。
さらに、ドメイン、文書長、自己矛盾の出現範囲、自己矛盾の種類など、様々な要因が自己矛盾検出性能に与える影響を分析した。その結果、自己矛盾の種類が最も大きな影響を与えることが分かった。具体的な事実に関する自己矛盾は検出しやすいが、感情や視点に関する自己矛盾は検出が困難であることが示された。
本研究は、文書レベルの自己矛盾検出に関する重要な知見を提供し、この分野における研究の発展に寄与するものと期待される。
Stats
自己矛盾文書の中で、GPT4は70.2%の事例で正しい証拠を見つけることができた。
GPT3.5は42.8%の事例で正しい証拠を見つけることができた。
物語文書では、GPT4の正しい証拠発見率が62.4%、GPT3.5が34.0%だった。
Quotes
"大規模言語モデル(LLM)は、様々な文書レベルのタスクで印象的な性能を示してきたが、長文文書における自己矛盾の理解に関する研究は非常に限られている。"
"自己矛盾を含む文書は、人間にとっても、特に文書が長く、矛盾が離れて存在する場合、識別が困難であることが心理学研究で示されている。"