Core Concepts
オフラインの一貫性チェックを活用することで、人手による注釈データを必要とせずに、大規模言語モデルが生成する非事実的な内容を効率的に検出できる。
Abstract
本研究は、大規模言語モデル(LLM)が生成する非事実的な内容を効率的に検出する手法PINOSE(Probe training with Offline coNsistency checking for Efficient non-factual content detection)を提案している。
データ準備段階では、LLMを用いて質問文を自動生成し、それに対する複数の回答を生成する。オフラインの一貫性チェック段階では、LLMによる相互レビューを通じて、各回答の事実性ラベルを自動生成する。最後にプローブ構築段階では、この事実性ラベルを用いてプローブモデルを学習する。
PINOSEの特徴は以下の通り:
人手による注釈データを必要とせず、オフラインの一貫性チェックから自動生成されたデータを用いるため、様々な分野のデータに対して汎化性が高い。
オンラインでの一貫性チェックを必要としないため、効率的な検出が可能。
LLMの内部表現を分析することで、トークンレベルの出力だけでなく、より広範な情報を活用できる。
実験の結果、PINOSEは既存の手法と比べて、質問応答データセットにおいて7.7-14.6 AUCの性能向上を示し、さらに3-7 AUCの改善と高速な検出を実現した。また、異なるLLMに対しても適用可能であることが示された。
Stats
大規模言語モデルが生成した回答の約71%が地球表面の水域面積を正しく表している。
大規模言語モデルが生成した回答の約半数が正しい事実を表している。
Quotes
"大規模言語モデルは、膨大なコーパスの事前学習後に、驚くべき知識生成能力を示す。しかし、時折非事実的な知識を生成する傾向があり、実用化を阻害する可能性がある。"
"内部表現ベクトルが、LLMが質問に対して事実的な回答を生成するかどうかを決定する。特に、トークンの順方向層の活性化が、事実性の抽出に有効である。"