本論文では、マスクトークンの特性を分析し、その特性を活用することで事前学習の効率を向上させる手法を提案している。
まず、マスクトークンには以下の3つの特性があることを示した:
次に、事前学習済みモデルの分析から、マスクトークンと可視トークンの間のヘテロジェネイティ(異質性)が高い初期層ほど、モデルの収束が速いことを示した。
これらの分析に基づき、提案手法「マスクトークン最適化(MTO)」では以下の3つの最適化を行う:
これらの最適化により、事前学習の収束が大幅に加速され、既存手法に比べて約50%の事前学習エポック数の削減を実現した。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Hyesong Choi... at arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08330.pdfDeeper Inquiries