이 논문은 PROBELM(Plausibility Ranking Evaluation for Language Models)이라는 새로운 벤치마크를 소개한다. PROBELM은 언어 모델의 개연성 추론 능력을 평가하기 위해 고안되었다. 기존 벤치마크들은 주로 사실적 정확성이나 논리적 추론 능력을 평가하는 데 초점을 맞추었지만, PROBELM은 언어 모델이 세계 지식을 활용하여 더 개연성 있는 시나리오를 식별하는 능력을 평가한다.
PROBELM은 위키데이터 편집 기록에서 수집한 데이터를 활용한다. 각 시나리오에는 가장 개연성 있는 시나리오와 함께 10개의 덜 개연성 있는 대안이 포함된다. 언어 모델은 이 시나리오들을 개연성 순으로 정렬해야 한다.
실험 결과, 사실적 정확성이 높은 모델이 반드시 개연성 추론 능력이 뛰어나지는 않다는 것을 보여준다. 또한 모델 크기와 개연성 추론 성능 간의 관계가 복잡하며, 모델 아키텍처와 학습 방법론도 중요한 역할을 한다. 특히 모델의 학습 데이터와 평가 데이터 간의 시간적 격차가 클수록 개연성 추론 성능이 낮아지는 경향이 관찰되었다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies