Core Concepts
대규모 언어 모델의 인과 관계 이해 능력을 종합적으로 평가하고 그 한계를 탐구하는 것이 이 연구의 핵심 목적이다.
Abstract
이 연구는 대규모 언어 모델(LLM)의 인과 관계 이해 능력을 종합적으로 평가하기 위해 CausalBench라는 벤치마크를 제안한다. CausalBench는 다음과 같은 특징을 가진다:
인과 관계 연구 분야에서 널리 사용되는 15개의 실세계 데이터셋을 포함하여 다양한 규모와 복잡도의 인과 관계 데이터를 활용한다.
상관관계 식별, 인과 골격 구조 식별, 인과 관계 식별 등 3가지 핵심 평가 과제를 통해 LLM의 인과 관계 이해 능력을 다각도로 평가한다.
변수명, 배경 지식, 구조화된 데이터 등 다양한 형태의 프롬프트를 활용하여 LLM의 사전 지식 활용 능력과 장문 이해 능력을 종합적으로 평가한다.
다양한 규모와 복잡도의 인과 관계 데이터셋을 활용하여 LLM의 인과 관계 식별 능력의 상한선을 탐구한다.
실험 결과, LLM은 인과 관계 식별 과제에서 여전히 인간 수준의 성능에 미치지 못하는 것으로 나타났다. 폐쇄형 LLM이 오픈소스 LLM에 비해 월등한 성능을 보였지만, 기존 인과 관계 학습 방법에 비해서는 여전히 부족한 것으로 나타났다. 또한 LLM의 성능은 데이터셋의 규모와 복잡도에 따라 크게 달라지는 것으로 확인되었다.
Stats
인과 관계 데이터셋의 노드 수가 증가할수록 LLM의 인과 관계 식별 성능이 크게 저하된다.
인과 관계 데이터셋의 희소성과 노드의 입/출력 차수가 증가할수록 LLM의 인과 관계 식별 성능이 감소한다.
Quotes
"LLM은 인과 관계 식별 과제에서 여전히 인간 수준의 성능에 미치지 못하는 것으로 나타났다."
"폐쇄형 LLM이 오픈소스 LLM에 비해 월등한 성능을 보였지만, 기존 인과 관계 학습 방법에 비해서는 여전히 부족한 것으로 나타났다."
"LLM의 성능은 데이터셋의 규모와 복잡도에 따라 크게 달라지는 것으로 확인되었다."