核心概念
언어 모델은 사전 지식과 주어진 문맥을 통합하여 질문에 답변하는데, 이 통합 방식은 질문과 문맥에 따라 예측 가능한 패턴을 보인다. 모델은 훈련 데이터에서 더 많이 노출된 개체(사람, 장소 등)에 대해서는 사전 지식에 더 의존하고, 특정 문맥에 의해 더 쉽게 설득될 수 있다.
摘要
이 연구는 언어 모델의 문맥 의존성과 사전 지식 의존성을 측정하기 위한 두 가지 상호정보량 기반 지표를 제안한다:
- 설득 점수(persuasion score): 특정 문맥이 모델의 답변 분포에 미치는 영향 정도를 나타낸다.
- 취약성 점수(susceptibility score): 특정 개체에 대한 질문에서 모델의 답변 분포가 문맥에 의해 얼마나 쉽게 변화하는지를 나타낸다.
이 지표들의 타당성과 신뢰성을 검증하고, 다양한 요인이 모델 행동에 미치는 영향을 분석했다. 주요 발견은 다음과 같다:
- 관련성 있는 문맥이 관련성 없는 문맥보다 일관적으로 더 설득력 있다.
- 단언적인 문맥이 기본 문맥보다 폐쇄형 질문에서 더 설득력 있다.
- 훈련 데이터에서 더 자주 등장하는 개체, 즉 모델이 더 익숙한 개체가 취약성 점수가 낮다.
이러한 지표를 활용하여 친구-적 관계 측정과 성 고정관념 분석 등의 사례 연구를 수행했다.
统计
훈련 데이터에서 개체와 답변의 동시 등장 횟수가 증가할수록 개체의 취약성 점수 상한이 감소한다.
개체의 YAGO 지식 그래프 내 관계 의존 차수가 증가할수록 개체의 취약성 점수 상한이 감소한다.
引用
"언어 모델은 사전 지식과 주어진 문맥을 통합하여 질문에 답변하는데, 이 통합 방식은 질문과 문맥에 따라 예측 가능한 패턴을 보인다."
"모델은 훈련 데이터에서 더 많이 노출된 개체(사람, 장소 등)에 대해서는 사전 지식에 더 의존하고, 특정 문맥에 의해 더 쉽게 설득될 수 있다."