最近の研究では、ニューラルネットワークの重みのスパース性に焦点を当て、FLOPsを削減し、トレーニング効率(トレーニングFLOPsに対するテスト精度)を向上させることが注目されています。しかし、スパースな重みトレーニングはしばしば精度を犠牲にし、密なモデルの精度を達成するために拡張されたトレーニングスケジュールが必要です。これに対して、Sparse Iso-FLOP変換(Sparse-IFT)アプローチは、スパース性を使用して精度を向上させながら密なモデルFLOPsを維持します。単一のハイパーパラメータ(つまり、スパース性レベル)を使用して、Sparse-IFTは密な層を効率的に置き換え、最適なスパースマスクの検索空間を拡大します。また、Sparse-IFTモデルでの動的スパーストレーニングは、Ramanujanグラフ特性を使用した分光解析によって証明されるように、このより大きなスパースマスクウェイト空間を効果的に航行します。我々の研究は、マスクトポロジー、ウェイトおよび最終的なパフォーマンスとの間の堅牢な相関関係を明らかにします。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Vithursan Th... alle arxiv.org 03-07-2024
https://arxiv.org/pdf/2303.11525.pdfDomande più approfondite