Core Concepts
大規模な言語モデルのファインチューニングを加速するために、バックワードプロパゲーション中にレイヤーをランダムに削除するDropBPアルゴリズムが提案されました。
Abstract
深層ニューラルネットワークのトレーニングコストを削減しながら精度を維持する新しいアプローチであるDropBPアルゴリズムが提案されました。この手法は、バックワードプロパゲーション中にレイヤーをランダムに削除し、トレーニングプロセス全体に負荷をかけずに効率的なトレーニングを実現します。DropBPは、感度に基づいて各レイヤーに適切なドロップ率を割り当てることで、トレーニングプロセスを安定させます。この手法は、PyTorchライブラリとして実装され、既存のトレーニングコードへの容易な統合が可能です。実験結果では、DropBPがトレーニング時間を44%短縮し、収束速度も向上させることが示されています。
Stats
DropBPはQLoRAで訓練時間を44%削減しました。
DropBPは同等の損失水準までの収束速度を1.5倍向上させました。
DropBPはNVIDIA-A100 80GiB GPUで最大6.2倍のシーケンス長で訓練可能です。