Core Concepts
언어 모델의 의미 표현이 언어 형식에 크게 의존하고 있음을 보여준다.
Abstract
이 연구는 언어 모델의 의미 표현이 언어 형식에 크게 의존하고 있음을 보여준다. 연구진은 프레게의 감각(sense)과 지시(reference) 개념에 착안하여 다중 감각 일관성 평가 방법을 제안했다. 이 방법은 언어 모델이 동일한 의미를 가진 다양한 언어 표현에 대해 일관된 반응을 보이는지 확인한다.
연구진은 GPT-3.5 모델을 대상으로 실험을 진행했다. 먼저 단순한 사실 질문에 대한 다국어 일관성을 평가했다. 그 결과 모델의 응답이 언어 형식에 크게 의존하는 것으로 나타났다. 이어서 자연어 이해 벤치마크 데이터셋에 대한 실험을 진행했는데, 여기서도 모델의 일관성이 낮게 나타났다.
추가 분석을 통해 이러한 일관성 부족이 언어 모델의 형식 의존적 과제 이해에서 기인한다는 점을 확인했다. 즉, 모델은 동일한 의미를 가진 다양한 언어 표현을 일관되게 처리하지 못하고 있다. 이는 언어 모델의 의미 이해가 여전히 인간과 거리가 멀다는 것을 시사한다.
Stats
영어 문장 "The Tabaci River is a tributary of the River Leurda in Romania."와 "The Leurda River is a tributary of the River Tabaci in Romania."는 동일한 의미를 가지고 있다.
XNLI 데이터셋의 전제 "Well, I wasn't even thinking about that, but I was so frustrated, and, I ended up talking to him again."와 가설 "I haven't spoken to him again."은 서로 모순된다.
COPA 데이터셋의 전제 "The item was packaged in bubble wrap."에 대해 대안 1 "It was fragile."이 대안 2 "It was small."보다 더 타당하다.
Quotes
"언어 모델의 의미 표현이 언어 형식에 크게 의존하고 있음을 보여준다."
"모델은 동일한 의미를 가진 다양한 언어 표현을 일관되게 처리하지 못하고 있다."
"이는 언어 모델의 의미 이해가 여전히 인간과 거리가 멀다는 것을 시사한다."