Core Concepts
BARDA는 언어 모델의 사실 정확도와 추론 능력을 명확히 구분하여 측정할 수 있는 새로운 벤치마크 데이터셋이다.
Abstract
BARDA는 언어 모델의 사실 정확도와 추론 능력을 측정하기 위해 고안된 새로운 데이터셋이다. 이 데이터셋은 사실 정확도와 추론 능력을 명확히 구분하기 위해 다음과 같은 특징을 가지고 있다:
참/거짓 사실과 유효/무효 추론으로 구성된 3,000개의 추론 단계를 포함한다.
사실 정확도는 문장의 진실성을 예측하는 능력을 측정한다.
추론 능력은 전제가 참일 때 결론이 합리적으로 도출되는지를 예측하는 능력을 측정한다.
사실이 거짓이더라도 추론이 유효한 경우(반사실적 상황)를 포함하여, 사실 정확도와 추론 능력을 독립적으로 평가할 수 있다.
이 데이터셋을 사용하여 GPT-3, GPT-3.5, GPT-4 모델의 성능을 평가한 결과, 새로운 모델로 갈수록 사실 정확도와 추론 능력이 전반적으로 향상되는 것을 확인할 수 있었다. 다만 GPT-3 (text-davinci-003)이 후속 모델인 GPT-3.5보다 추론 능력이 더 뛰어난 것으로 나타났다.
Stats
동전은 구리로 만들어져 있다.
구리는 자기적 성질을 가지고 있다.
동전은 자기적 성질을 가지고 있다.
기린은 포유류이다.
포유류는 알을 낳는다.
기린은 알을 낳는다.
포보스는 달이다.
달은 행성을 공전한다.
포보스는 화성을 공전한다.