Core Concepts
深層ネットワークのスケールでの損失に関する2次情報を活用し、新しい効率的なエラーフィードバック技術が、事前条件付け子を実践的に最大2桁まで圧縮することが可能である。
Abstract
背景と関連研究:SGDベースの最適化手法の成功から、加速された事前条件付け変種への長い研究路線が生まれた。しかし、完全行列事前条件付けの既存実装は現在実用的ではない。
メソッド:エラーフィードバックメカニズムを活用して勾配履歴を圧縮し、スパース/低ランクアルゴリズムを提供。これにより、ほぼ損失なく圧縮可能。
実験:ResNet-18やBERTなどのタスクでS-MFAC実装を評価。メモリ使用量やトレーニング時間も考察。
Stats
450GB以上のGPU RAMが必要な例示あり。
標準設定では417GBのメモリが必要とされる例示あり。
Quotes
"新しいアルゴリズム的アプローチを提供"
"従来不可能だった単一GPU内で完全行列事前条件付け方法を試すことが可能"