Core Concepts
마스크 언어 모델링(MLM) 사전 학습 과정에서 [MASK] 토큰 표현이 모델 차원의 일부를 독점하여, 실제 토큰 표현의 표현력이 제한되는 문제가 발생한다.
Abstract
이 논문은 마스크 언어 모델링(MLM) 사전 학습 과정에서 발생하는 표현 결핍 문제를 분석하고 이를 해결하는 새로운 방법을 제안한다.
MLM 사전 학습 시 [MASK] 토큰 표현이 모델 차원의 일부를 독점하여, 실제 토큰 표현의 표현력이 제한되는 문제를 실험적, 이론적으로 분석했다.
[MASK] 토큰을 인코더 입력에서 제외하는 MAE-LM 방법을 제안했다. 이를 통해 실제 토큰 표현이 모델 전체 차원을 활용할 수 있게 되어, MLM 사전 학습 모델 대비 성능 향상을 달성했다.
GLUE와 SQuAD 벤치마크에서 MAE-LM이 기존 MLM 사전 학습 모델들을 일관되게 능가하는 것을 확인했다.
Stats
마스크 토큰 표현의 랭크가 인코더 층이 깊어질수록 증가한다.
실제 토큰 표현의 랭크는 마스크 토큰 표현의 랭크에 의해 제한된다.
Quotes
"MLM 사전 학습 과정에서 [MASK] 토큰 표현이 모델 차원의 일부를 독점하여, 실제 토큰 표현의 표현력이 제한되는 문제가 발생한다."
"MAE-LM 방법을 통해 실제 토큰 표현이 모델 전체 차원을 활용할 수 있게 되어, MLM 사전 학습 모델 대비 성능 향상을 달성했다."