本論文は、大規模言語モデルの因果推論能力を評価するための新しいベンチマークタスク「CORR2CAUSE」を提案している。このタスクでは、変数間の相関関係が与えられた上で、それらの変数間の因果関係を正しく推論できるかを評価する。
具体的には、以下のような手順で大規模データセットを構築した:
この新しいベンチマークデータセットを用いて、17種類の大規模言語モデルの性能を評価した。その結果、これらのモデルは因果推論タスクにおいて非常に低い性能しか示さず、ランダムレベルに近い結果となった。
さらに、モデルを fine-tuning しても、因果推論能力は頑健ではなく、入力の文言や変数名を変更するだけで大幅に性能が低下した。これは、現在の大規模言語モデルには因果推論を行う純粋な推論能力が不足していることを示唆している。
今後の研究では、大規模言語モデルの因果推論能力を向上させる方法を探ることが重要な課題となる。
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
สอบถามเพิ่มเติม