核心概念
大規模言語モデルは相関情報から因果関係を正しく推論することが難しい。
摘要
本論文は、大規模言語モデルの因果推論能力を評価するための新しいベンチマークタスク「CORR2CAUSE」を提案している。このタスクでは、変数間の相関関係が与えられた上で、それらの変数間の因果関係を正しく推論できるかを評価する。
具体的には、以下のような手順で大規模データセットを構築した:
- 変数数Nを設定し、全ての可能な因果グラフを生成する。
- 各因果グラフから変数間の相関関係を導出する。
- 相関関係と因果関係の対応関係を分析し、因果関係の仮説の正誤ラベルを付与する。
- 相関関係と因果関係の仮説を自然言語で表現する。
この新しいベンチマークデータセットを用いて、17種類の大規模言語モデルの性能を評価した。その結果、これらのモデルは因果推論タスクにおいて非常に低い性能しか示さず、ランダムレベルに近い結果となった。
さらに、モデルを fine-tuning しても、因果推論能力は頑健ではなく、入力の文言や変数名を変更するだけで大幅に性能が低下した。これは、現在の大規模言語モデルには因果推論を行う純粋な推論能力が不足していることを示唆している。
今後の研究では、大規模言語モデルの因果推論能力を向上させる方法を探ることが重要な課題となる。
統計資料
相関関係が存在しない変数間では、「A は B から独立である」と表現される。
相関関係が存在する変数間では、「A は B と相関する」と表現される。
変数間の因果関係には以下の6種類がある:
A は B の直接の原因である
A は B の間接的な原因である
B は A の直接の原因である
B は A の間接的な原因である
A と B には共通の原因が存在する
A と B には共通の結果が存在する
引述
「大規模言語モデルは因果推論の『鸚鵡』であり、訓練データ内の因果知識を暗記しているだけである」
「因果推論は人間の知性の根幹をなすものであるが、現在の自然言語処理分野の研究は主に経験的知識に基づいた因果関係の発見に焦点を当てている」