核心概念
2:4スパース性を活用することで、トランスフォーマーのプリトレーニングを高速化できる。精度を維持しつつ、実際の加速比を最大1.2倍まで達成できる。
要約
本研究では、トランスフォーマーのプリトレーニングを2:4スパース性を用いて高速化する手法を提案している。
まず、精度を維持するための3つの技術を提案している:
マスク減衰を重みではなく勾配に適用することで、トレーニングの安定性を高める
マスク減衰係数の適切な値を迅速に決定する手法を提案
トレーニングの最後にデンス微調整を行うことで、精度を向上させる
次に、実際の高速化を実現するための技術を提案している:
転置可能な2:4マスクを畳み込み演算で高速に計算する
ゲート付き活性化関数の演算を高速化する
これらの技術を組み合わせることで、BERT、GPT-2、Transformer-base、DeiT-tinyなどのトランスフォーマーモデルにおいて、精度を維持しつつ最大1.2倍の実際の高速化を達成できることを示している。
統計
トランスフォーマーブロックの高速化率は最大1.2倍である。
GPT-2モデルの全体的な高速化率は最大1.2倍である。