핵심 개념
Sparsity in neural networks can improve accuracy without sacrificing training efficiency through Sparse Iso-FLOP Transformations (Sparse-IFT).
초록
最近の研究では、ニューラルネットワークの重みのスパース性に焦点を当て、FLOPsを削減し、トレーニング効率(トレーニングFLOPsに対するテスト精度)を向上させることが注目されています。しかし、スパースな重みトレーニングはしばしば精度を犠牲にし、密なモデルの精度を達成するために拡張されたトレーニングスケジュールが必要です。これに対して、Sparse Iso-FLOP変換(Sparse-IFT)アプローチは、スパース性を使用して精度を向上させながら密なモデルFLOPsを維持します。単一のハイパーパラメータ(つまり、スパース性レベル)を使用して、Sparse-IFTは密な層を効率的に置き換え、最適なスパースマスクの検索空間を拡大します。また、Sparse-IFTモデルでの動的スパーストレーニングは、Ramanujanグラフ特性を使用した分光解析によって証明されるように、このより大きなスパースマスクウェイト空間を効果的に航行します。我々の研究は、マスクトポロジー、ウェイトおよび最終的なパフォーマンスとの間の堅牢な相関関係を明らかにします。
통계
ResNet-18 on ImageNetでResNet-34と比較して90%の疎さで3.5%の精度向上があった。
GPT-3 Small on the Open LLM leaderboardで0.9%の改善が見られた。
인용구
"We introduce Sparse Iso-FLOP Transformations (Sparse-IFTs), a family of techniques aimed at enhancing DNN training efficiency."
"Our study reveals a robust correlation among mask topology, weights, and final performance."
"Replacing dense layers with Sparse-IFT yields significant improvements without adjusting hyperparameters."