Core Concepts
BEAR는 마스크 언어 모델과 인과 언어 모델 모두에 적용 가능한 관계적 지식 프로빙 방법론이다. 기존 접근법의 한계를 극복하고 균형 잡힌 데이터셋을 구축하여 언어 모델의 관계적 지식을 효과적으로 평가할 수 있다.
Abstract
이 논문은 언어 모델(LM)의 관계적 지식을 평가하기 위한 새로운 프레임워크인 BEAR를 제안한다. 기존의 LAMA 프로브는 마스크 LM에만 적용 가능하고, 단일 토큰 답변만 허용하며, 편향된 데이터셋을 사용한다는 한계가 있다.
BEAR는 이러한 문제를 해결하기 위해 LM의 문장 수준 로그 우도 점수를 활용한다. 각 관계 인스턴스에 대해 여러 개의 답변 옵션을 생성하고, LM이 이를 순위화하도록 한다. 이를 통해 마스크 LM과 인과 LM 모두에 적용할 수 있으며, 다중 토큰 답변도 허용한다.
또한 BEAR 데이터셋을 구축하여 균형 잡힌 답변 공간, 단일 정답, 관계 간 균등한 인스턴스 수 등의 특성을 갖도록 하였다. 실험 결과, BEAR가 기존 프로브보다 더 까다로운 것으로 나타났다. 이는 BEAR가 언어 모델의 관계적 지식을 보다 정확하게 평가할 수 있음을 시사한다.
Stats
제안된 BEAR 프레임워크는 총 7,731개의 관계 인스턴스로 구성된 데이터셋을 사용한다.
이 데이터셋은 78개의 관계로 구성되어 있으며, 각 관계마다 5-25개의 답변 옵션이 포함되어 있다.
각 답변 옵션은 6-30개의 인스턴스를 가지며, 전체적으로 균형 잡힌 분포를 보인다.