Core Concepts
大規模言語モデルが生成する虚偽情報を正確に検出し、その具体的な箇所を特定する新しい「事実的推論」手法を提案する。
Abstract
本論文は、大規模言語モデル(LLM)が生成する虚偽情報(ホールシネーション)を検出するための新しい手法「事実的推論(Factual Entailment)」を提案している。
まず、従来の文章推論(Textual Entailment)手法では、LLMの生成する虚偽情報を正確に検出できないことを示している。例えば、LLMが「オバマ大統領がウクライナへの米軍派遣を拒否した」と述べた場合、文章推論手法はこれを「支持」と判断してしまうが、実際にはバイデン大統領の発言であり、事実と矛盾している。
そこで本手法では、文章推論に加えて、事実確認とスパン検出を組み合わせた「事実的推論」を提案している。具体的には、LLMの生成文章に対して以下の3つのタスクを同時に行う:
推論スコアの予測
虚偽情報の種類の分類
虚偽情報が含まれる箇所の特定
これにより、LLMの生成文章に含まれる虚偽情報を正確に検出し、その具体的な箇所を特定することができる。
本手法を評価するために、FACTOID(FACTual enTAILment for hallucInation Detection)と呼ばれる新しいベンチマークデータセットを構築した。実験の結果、提案手法は従来の文章推論手法に比べて約40%の精度向上を達成した。
さらに、提案手法を用いて15種類の最新LLMの虚偽情報発生率を自動的に評価し、「自動ホールシネーション脆弱性指数(HVIauto)」として定量化した。これにより、LLMの虚偽情報発生傾向を比較・評価することができる。
Stats
大規模言語モデルが生成した文章の中には、事実と矛盾する虚偽情報が含まれることがある。
虚偽情報には、数値の誤り、時間の矛盾、架空の人物の登場、場所の誤りなどの種類がある。
従来の文章推論手法では、このような虚偽情報を正確に検出できないという問題がある。
Quotes
「大規模言語モデルが生成する虚偽情報を正確に検出し、その具体的な箇所を特定する新しい『事実的推論』手法を提案する。」
「従来の文章推論手法では、LLMの生成する虚偽情報を正確に検出できないことを示している。」
「提案手法は従来の文章推論手法に比べて約40%の精度向上を達成した。」