Core Concepts
MLMの事前学習における[MASK]トークンの表現が実際のトークンの表現に不足を引き起こす。
Abstract
ABSTRACT
MLMは事前学習で効果的なアプローチ。
[MASK]トークンは事前学習とファインチューニングで不一致。
MAE-LMは提案され、GLUEとSQuADでMLMよりも優れた結果を示す。
INTRODUCTION
MLMはNLPタスクで成功を収めている。
[MASK]トークンの欠如がMLMの汎化能力に影響を与える可能性あり。
ANALYSIS OF TOKEN REPRESENTATIONS IN MLM
MLM事前学習では[MASK]トークンが特定次元を占有し、実際のトークン表現に影響を及ぼす。
実証的証拠と理論的検証が行われている。
MAE-LM: MASKED AUTOENCODERS FOR MLM
MAE-LMはMLMよりも優れた結果を示すことが示されている。
Stats
[MASK]トークンは通常下流タスクデータに存在しない。
MAE-LMはGLUEとSQuADでMLMよりも優れた結果を示す。