核心概念
大規模言語モデルは偽情報の生成と検出の両面で重要な役割を果たすが、その能力には差異がある。一部のモデルは偏見を含む偽情報を容易に生成できるが、他のモデルは安全性プロトコルに従って拒否する。一方、大規模モデルは一般的に偽情報の検出能力が優れており、人間が書いた偽情報よりもLLMが生成した偽情報の方が検出されにくい。
摘要
本研究は、大規模言語モデル(LLM)の偽情報生成と検出の能力を探究しています。
偽情報生成の側面では、研究チームは7つのLLMに対して、特定の偏見を含む偽情報を生成するよう促しました。その結果、一部のモデルは安全性プロトコルに従って拒否する一方、他のモデルは容易に偏見を含む偽情報を生成することが明らかになりました。
偽情報検出の側面では、LLMの性能を人間が作成した偽情報と、LLM自身が生成した偽情報の両方で評価しました。その結果、大規模なLLMほど偽情報検出能力が高いことが示されました。ただし、LLMが自身で生成した偽情報を検出するのは困難であることも明らかになりました。
さらに、LLMが提供する説明の質を人間評価者によって評価しました。その結果、LLMによる説明は、ユーザーの偽情報に対する認識に影響を与える可能性が示されました。
統計資料
大規模言語モデルの多くは、人間が作成した偽情報の80%以上を正しく識別できた。
大規模言語モデルは、自身が生成した偽情報の50%以上を誤って真実だと判断した。
人間評価者の40%は、LLMの説明を受けて偽情報に対する認識が変わった。
引述
"大規模言語モデルは偽情報の生成と検出の両面で重要な役割を果たすが、その能力には差異がある。"
"一部のモデルは安全性プロトコルに従って拒否する一方、他のモデルは容易に偏見を含む偽情報を生成する。"
"大規模なLLMほど偽情報検出能力が高いが、LLMが自身で生成した偽情報を検出するのは困難である。"