本研究は、大規模言語モデル(LLM)の偽情報生成と検出の能力を探究しています。
偽情報生成の側面では、研究チームは7つのLLMに対して、特定の偏見を含む偽情報を生成するよう促しました。その結果、一部のモデルは安全性プロトコルに従って拒否する一方、他のモデルは容易に偏見を含む偽情報を生成することが明らかになりました。
偽情報検出の側面では、LLMの性能を人間が作成した偽情報と、LLM自身が生成した偽情報の両方で評価しました。その結果、大規模なLLMほど偽情報検出能力が高いことが示されました。ただし、LLMが自身で生成した偽情報を検出するのは困難であることも明らかになりました。
さらに、LLMが提供する説明の質を人間評価者によって評価しました。その結果、LLMによる説明は、ユーザーの偽情報に対する認識に影響を与える可能性が示されました。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы