核心概念
マスクトークンの特性を分析し、その特性を活用することで、事前学習の効率を大幅に向上させることができる。
摘要
本論文では、マスクトークンの特性を分析し、その特性を活用することで事前学習の効率を向上させる手法を提案している。
まず、マスクトークンには以下の3つの特性があることを示した:
- 空間的ランダム性: マスクトークンはランダムに選択される必要がある
- 置換の一貫性: マスクトークンは一貫して同じパラメータで置換される必要がある
- データ固有性: マスクトークンは訓練データに現れにくい固有のトークンである必要がある
次に、事前学習済みモデルの分析から、マスクトークンと可視トークンの間のヘテロジェネイティ(異質性)が高い初期層ほど、モデルの収束が速いことを示した。
これらの分析に基づき、提案手法「マスクトークン最適化(MTO)」では以下の3つの最適化を行う:
- 可視トークンの表現学習にマスクトークンが影響しないよう、可視トークン間の相互作用を強化する損失関数を導入
- 初期層でマスクトークンと可視トークンの異質性を最大化する損失関数を導入
- 後続層でマスクトークンと可視トークンの異質性を徐々に減少させる順位損失を導入
これらの最適化により、事前学習の収束が大幅に加速され、既存手法に比べて約50%の事前学習エポック数の削減を実現した。
統計資料
事前学習エポック数を約50%削減できた
既存手法に比べて、400エポック程度で同等の性能を達成できた
引述
"マスクトークンには以下の3つの特性がある必要がある: 1) 空間的ランダム性、2) 置換の一貫性、3) データ固有性"
"マスクトークンと可視トークンの間のヘテロジェネイティが高い初期層ほど、モデルの収束が速い"