Core Concepts
大規模知識グラフを活用して、Large Language Modelsの事実性を包括的に評価する。
Abstract
本論文は、Large Language Models (LLMs)の事実性を評価するための新しいアプローチ「GraphEval」を提案している。
まず、大規模知識グラフ(DBpedia)から自動的に質問を生成し、LLMに回答させることで、事実性を評価する。従来の手法では人手で質問を作成していたが、本手法では大規模な知識グラフを活用することで、より包括的な評価が可能となる。
次に、LLMの回答を直接評価するのではなく、軽量な「判定モデル」を導入する。この判定モデルは、LLMの隠れ状態を入力として、回答が正しいか(True)、間違っている(False)、わからない(IDK)を判断する。これにより、LLMの生成テキストを確認する必要がなくなり、評価コストを大幅に削減できる。
実験では、Meta LLaMA 2 familyとGoogle Gemmaの各モデルを評価している。結果、LLaMA-2-13Bが最も高い事実性を示したが、LLaMA-2-70Bは正解率が極端に低いことが分かった。また、関係タイプ別の分析から、LLMの事実性能力には大きな差があることが明らかになった。
本手法は、LLMの事実性を包括的かつ効率的に評価できる新しいアプローチであり、LLMの信頼性向上に貢献すると期待される。
Stats
LLaMA-2-7Bモデルの正解率は0.516である。
LLaMA-2-13Bモデルの正解率は0.959である。
LLaMA-2-70Bモデルの正解率は0.006である。
Gemma-2Bモデルの正解率は0.024である。
Gemma-7Bモデルの正解率は0.056である。