核心概念
대규모 언어 모델(LLM)은 복잡한 상황에서 견고한 추론을 수행하는 데 여전히 한계가 있다. 본 연구에서는 이를 평가하기 위한 새로운 벤치마크 데이터셋 MuSR을 소개한다.
要約
이 논문은 대규모 언어 모델(LLM)의 추론 능력을 평가하기 위한 새로운 벤치마크 데이터셋 MuSR을 소개한다.
MuSR은 다음과 같은 특징을 가진다:
- 자연어 내러티브로 구성된 복잡한 추론 과제를 포함한다.
- 신경-기호 합성 알고리즘을 통해 자동으로 생성되어, 모델 성능 향상에 따라 더 복잡한 과제로 확장될 수 있다.
- 인간 평가 결과 높은 정확도를 보여, 모델의 추론 능력을 잘 반영한다.
실험 결과, 현재 최신 LLM 모델들은 이 데이터셋의 과제를 해결하는 데 어려움을 겪는 것으로 나타났다. 이는 LLM의 추론 능력의 한계를 보여준다. 본 데이터셋은 LLM과 신경-기호 접근법의 추론 성능을 평가하고 개선하는 데 활용될 수 있다.
統計
소피아는 유산을 훔친 에밀리에 대한 원한이 있다.
소피아는 범행 수단을 가지고 있다.
소피아는 범행 기회가 있었다.
引用
"Detective Winston was on the case and began to look at his first suspect, Sophia."
"Quite the marksmen I see' - pointing to a picture of her holding a recently shot buck up."
"'Yeah, my dad loved taking me shooting' - Sophia replied sheepishly."