本論文は、大規模な深層学習モデル、特にトランスフォーマーベースのモデル(BERT、GPT、DeiT)の効率的な学習手法を提案している。
主な内容は以下の通り:
大規模モデルの学習には膨大な計算コストがかかるが、モデルの階層的な構造と層間の類似性に着目し、これを活用することで学習コストを大幅に削減できることを示す。
3つの基本演算子(Coalescing、De-coalescing、Interpolation)を定義し、これらを組み合わせてV字型の学習プロセスを構築する。
小規模モデルを迅速に学習し、その結果を大規模モデルの初期化に活用することで、大規模モデルの学習を効率化する。
提案手法をBERT、GPT、DeiTモデルに適用し、従来手法と比較して20%~50%の計算コスト削減を実現しつつ、性能を維持できることを示す。
より多数のレベルを導入することで、さらなる計算コスト削減が可能であることを確認する。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問