核心概念
大型語言模型在處理敘事因果推理時,儘管展現出一定的理解能力,但仍依賴不可靠的捷徑,存在著關鍵的缺陷。
這篇研究論文深入探討了大型語言模型(LLM)在敘事因果推理方面的能力和局限性。研究人員透過分析 LLM 在從敘事文本中推斷因果關係的表現,發現儘管這些模型取得了顯著的進展,但它們仍然依賴不可靠的捷徑,並存在著一些關鍵的缺陷。
研究方法
研究人員採用了一系列精心設計的實驗來評估 LLM 的因果推理能力。他們首先使用 LLM 生成一系列事件,並將這些事件連結成因果鏈圖。接著,他們要求 LLM 根據這些因果圖生成敘事文本,並在不提供因果圖的情況下,測試 LLM 是否能夠從文本中準確地提取出原始的因果關係。
主要發現
LLM 的因果推理缺陷
研究發現,LLM 在處理敘事因果推理時存在以下三個主要缺陷:
對拓撲順序的依賴: LLM 在很大程度上依賴於敘事中事件出現的順序來判斷因果關係。當事件的敘述順序與實際因果順序相符時,LLM 的表現較好;反之,當敘述順序與因果順序相悖時,LLM 的表現就會下降。
對參數化知識的過度依賴: LLM 傾向於利用預先訓練過程中記憶的參數化知識來推斷因果關係,即使這些知識與當前敘事文本中的因果關係相矛盾。
長篇敘事的推理能力不足: 隨著敘事文本長度和事件數量的增加,LLM 的推理能力會顯著下降,表明其在處理長篇敘事時存在困難。
減輕缺陷的策略
研究還發現,要求 LLM 從敘事文本中提取因果圖,並利用提取的因果圖或將其與敘事文本結合起來進行推理,可以有效減輕上述缺陷。
研究結論
這項研究揭示了 LLM 在敘事因果推理方面存在的關鍵缺陷,並提出了一些減輕這些缺陷的策略。研究結果對於未來開發更強大、更可靠的因果推理模型具有重要的指導意義。
統計資料
在真實世界的敘事中,大約 39% 的因果關係對與 LLM 的參數化知識相衝突。