Core Concepts
대규모 언어 모델은 상관관계 정보만으로 인과관계를 추론하는 데 어려움을 겪는다.
Abstract
이 논문은 대규모 언어 모델의 순수한 인과 추론 능력을 테스트하기 위한 새로운 벤치마크 데이터셋 CORR2CAUSE를 제안한다. 이 데이터셋은 상관관계 정보만 주어졌을 때 변수 간 인과관계를 판단하는 과제로 구성되어 있다.
실험 결과, 17개의 기존 대규모 언어 모델 모두 이 과제에서 거의 랜덤 수준의 성능을 보였다. 이는 대규모 언어 모델이 순수한 인과 추론 능력이 부족함을 보여준다.
모델을 fine-tuning하여 성능을 높일 수 있지만, 이 능력은 여전히 일반화되지 않는다. 모델은 훈련 데이터와 유사한 변수명과 문장 표현을 가진 in-distribution 상황에서만 인과 추론을 잘 수행할 뿐, out-of-distribution 상황에서는 실패한다.
CORR2CAUSE는 대규모 언어 모델의 순수한 추론 능력과 일반화 능력을 향상시키는 데 도움이 될 수 있는 도전적인 과제이다.
Stats
상관관계가 있는 변수들 간에는 인과관계가 성립하지 않을 수 있다.
변수 A와 B가 상관관계가 있고, 변수 B와 C도 상관관계가 있지만, 변수 A와 C는 독립적이다.
이 경우 A가 B를 직접 야기한다고 볼 수 있다.
Quotes
"Causal inference, i.e., the ability to establish the correct causal relationships between variables or events, is fundamental to human intelligence."
"Recent studies have pointed out that LLMs are "causal parrots," which recite the causal knowledge in the training data."