แนวคิดหลัก
大規模言語モデルは、介入に対する知識の更新を正確に行うことができるか。
บทคัดย่อ
本論文では、大規模言語モデル(LLM)の介入に基づく推論能力を評価するための新しいベンチマークを提案しています。
- 介入効果(IE)予測タスクを定義し、LLMがカウンターファクチュアルな状況下で知識を適切に更新できるかを評価します。
- 3つのベンチマーク(Random、Tübingen、Anti-commonsense)を設計し、LLMの性能を分析しました。
- GPT-4系モデルは一部のシナリオで良好な精度を示しましたが、事前に学習された因果関係に影響されることが明らかになりました。
- LLaMA-2は介入推論に課題があることが示されました。
- LLMの因果推論能力を正しく評価するには、プロンプトデザインの影響を慎重に検討する必要があることが分かりました。
สถิติ
GPT-4は、バイバリエイト、混同、メディエーション各グラフにおける介入変数Bの介入効果予測で100%の精度を達成しました。
GPT-4-turboは、メディエーショングラフにおける介入変数B、Cの介入効果予測で100%の精度を示しました。
LLaMA-2は、バイバリエイト、混同、メディエーショングラフのほとんどのシナリオで50%前後の精度しか示せませんでした。