核心概念
BERT 모델의 미세 조정 과정에서 어휘 범주에 따라 토큰 간 주의 점수가 크게 변화한다.
摘要
이 연구는 BERT 모델의 미세 조정 과정에서 어휘 범주(내용어와 기능어)에 따라 토큰 간 주의 점수가 어떻게 변화하는지 조사했다.
실험 결과:
- 통사 정보를 중요시하는 과제(CoLA, MRPC, MNLI)에서는 기능어에 대한 주의 점수가 증가했다.
- 의미 정보를 중요시하는 과제(SST, QQP, WiC)에서는 내용어에 대한 주의 점수가 증가했다.
- 이는 BERT 모델이 미세 조정 과정에서 어휘 범주에 따른 언어학적 지식을 내재화한다는 것을 보여준다.
추가로, 특정 BERT 층이 어휘 범주에 대한 선호도를 일관되게 보이는 것을 발견했다. 이는 BERT 층이 언어학적 지식을 일반화할 수 있음을 시사한다.
統計資料
BERT 모델의 미세 조정 과정에서 내용어와 기능어에 대한 주의 점수가 크게 변화했다.
CoLA 과제의 경우 기능어에 대한 주의 점수가 0.35 증가했다.
MNLI 과제의 경우 기능어에 대한 주의 점수가 0.44 증가했다.
引述
"BERT 모델의 미세 조정 과정에서 어휘 범주에 따라 토큰 간 주의 점수가 크게 변화한다."
"특정 BERT 층이 어휘 범주에 대한 선호도를 일관되게 보이는 것을 발견했다."