이 논문은 대규모 언어 모델(LLM)의 추론 능력을 평가하기 위한 새로운 벤치마크 데이터셋 MuSR을 소개한다.
MuSR은 다음과 같은 특징을 가진다:
실험 결과, 현재 최신 LLM 모델들은 이 데이터셋의 과제를 해결하는 데 어려움을 겪는 것으로 나타났다. 이는 LLM의 추론 능력의 한계를 보여준다. 본 데이터셋은 LLM과 신경-기호 접근법의 추론 성능을 평가하고 개선하는 데 활용될 수 있다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Zayne Spragu... lúc arxiv.org 03-26-2024
https://arxiv.org/pdf/2310.16049.pdfYêu cầu sâu hơn