Conceptos Básicos
大規模言語モデルの因果理解能力を包括的に評価し、その限界を明らかにする。
Resumen
本論文は、大規模言語モデル(LLM)の因果理解能力を包括的に評価するベンチマーク「CausalBench」を提案している。CausalBenchは以下の特徴を持つ:
因果学習研究コミュニティから収集した多様なデータセットを活用し、LLMの因果学習能力を徹底的に評価する。
相関の識別、因果スケルトンの構築、因果関係の特定の3つの評価タスクを設定し、LLMの因果理解能力を多角的に評価する。
変数名、背景知識、構造化データなど、多様な入力形式を採用し、LLMの事前知識活用能力と長文理解能力を最大限引き出す。
2ノードから109ノードまでの規模と複雑性の異なるデータセットを用いて、LLMの因果理解能力の上限を明らかにする。
実験の結果、LLMは因果学習の課題において人間の性能に及ばず、特に大規模データセットでの性能が低いことが明らかになった。一方で、閉鎖型LLMは開放型LLMを大きく上回るものの、従来の因果学習手法にも及ばない。また、LLMは相関や因果関係の特定よりも、因果スケルトンの構築に長けていることが分かった。さらに、背景知識と構造化データの活用は、LLMの因果理解能力を向上させるが、データセットの規模が大きくなるとその効果は限定的になることが示された。
Estadísticas
因果関係の特定タスクにおいて、LLMの平均F1スコアは0.1~0.4、平均正解率は20%~50%程度であり、従来の因果学習手法に大きく劣る。
因果スケルトンの構築タスクでは、LLMの平均F1スコアは0.3~0.5、平均正解率は60%前後となった。
相関の識別タスクでは、LLMの平均F1スコアは0.15~0.55、平均正解率は15%~55%程度であった。