本論文では、マスクトークンの特性を分析し、その特性を活用することで事前学習の効率を向上させる手法を提案している。
まず、マスクトークンには以下の3つの特性があることを示した:
次に、事前学習済みモデルの分析から、マスクトークンと可視トークンの間のヘテロジェネイティ(異質性)が高い初期層ほど、モデルの収束が速いことを示した。
これらの分析に基づき、提案手法「マスクトークン最適化(MTO)」では以下の3つの最適化を行う:
これらの最適化により、事前学習の収束が大幅に加速され、既存手法に比べて約50%の事前学習エポック数の削減を実現した。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Hyesong Choi... lúc arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08330.pdfYêu cầu sâu hơn