Core Concepts
大規模言語モデルは人間の事実検証を支援できるが、モデルの説明が間違っている場合、人間はそれを過度に信頼してしまう危険性がある。
Abstract
本研究は、大規模言語モデルと検索エンジンを使った事実検証の効果を比較しています。
実験の結果:
大規模言語モデルの説明を見せると、人間の事実検証の正確性は検索エンジンと同程度まで向上しますが、時間は大幅に短縮できます。
しかし、言語モデルの説明が間違っている場合、人間はそれを過度に信頼してしまい、正確性が検索エンジンよりも低下してしまいます。
対照的な説明(支持と反対の両方を示す)を提示することで、過度の信頼を軽減できますが、検索エンジンと同程度の正確性しか得られません。
検索結果と言語モデルの説明を組み合わせても、検索エンジンだけを使うよりも効果的ではありません。
全体として、自然言語の説明は時間の節約に役立つ一方で、間違った説明への過度の信頼が問題となります。事実検証においては、慎重に検索結果を読むことが依然として最も確実な方法だと結論付けられます。
Stats
実験参加者80人が、200の主張を検証しました。
大規模言語モデルの説明の正確性は78.0%でした。
検索エンジンの完全再現率は81.5%、部分再現率は93.0%でした。