核心概念
モデル編集の長期的な影響を評価する新しいプロトコルを提案し、既存の短期的な評価指標との違いを明らかにする。
要約
本研究では、大規模言語モデル(LLM)の事実知識を更新または変更するためのモデル編集手法の長期的な影響を評価するプロトコル「長期的モデル編集評価(LEME)」を提案した。
- LLMの編集後の長文生成の一貫性、事実整合性、内部整合性、トピック性、自然さを評価する
- 人間による評価と高い相関を持つ自動評価指標を開発した
- 既存の短期的な評価指標とほとんど相関がないことを示した
- ROME、MEMITなどの手法は一貫した編集ができるが、事実のドリフトが大きいことが明らかになった
- 新しい事実の挿入と既存の事実の更新では、性能に違いがあることを示した
統計
生成された文章の中で、事実を支持する文が多いほど、事実整合性が高い。
生成された文章の中で、編集内容を反映している文が多いほど、編集の一貫性が高い。
生成された文章の中で、自己矛盾や他の文章との矛盾が少ないほど、内部整合性が高い。
引用
"短期的な評価では、モデル編集の長期的な影響を十分に捉えられていない。"
"ROME やMEMITなどの手法は、一貫した編集ができるが、事実のドリフトが大きい。"
"新しい事実の挿入と既存の事実の更新では、性能に違いがある。"