Core Concepts
SMARTプルーナーは、重要度マスクを直接学習することで、層間の重要度ランキングをより正確に捉え、また動的な温度パラメータ手法によって非疎な局所最小値から脱出することができる。
Abstract
本論文では、コンピュータービジョンタスクにおけるブロック/出力チャンネル圧縮のための新しいプルーナー手法「SMART」を提案している。
まず、重要度ランキングを直接学習可能な別個の確率マスクを導入することで、層間の重要度関係をより正確に捉えることができる。次に、動的な温度パラメータ手法を用いることで、非疎な局所最小値から脱出し、より良い圧縮結果を得ることができる。
具体的な手法は以下の通り:
重要度ランキングを表す確率マスクを直接学習する。これにより、層間の重要度関係を適切に捉えることができる。
温度パラメータを動的に変化させることで、非疎な局所最小値から脱出し、良好な圧縮結果を得ることができる。
微分可能なTop-k演算子を導入し、マスクの更新と重みの更新を同時に行うことができる。
理論的な分析から、温度パラメータが0に近づくにつれ、SMARTプルーナーの最適解が基本的な圧縮問題の最適解に等しくなることが示される。
実験結果では、SMARTプルーナーが様々なモデルやタスクにおいて、既存手法を大きく上回る性能を示している。特にブロック/出力チャンネル圧縮、およびTransformerベースモデルのN:M圧縮でその優位性が確認された。
Stats
重要な重みブロックの数は、(1-r) × n(w)である。ここで、rは目標の疎度、n(w)は重みブロックの総数を表す。
重みブロックの絶対値の大きさは、重要度の指標として使われる。
Quotes
"SMARTプルーナーは、重要度ランキングを直接学習可能な別個の確率マスクを導入することで、層間の重要度関係をより正確に捉えることができる。"
"動的な温度パラメータ手法を用いることで、非疎な局所最小値から脱出し、より良い圧縮結果を得ることができる。"
"理論的な分析から、温度パラメータが0に近づくにつれ、SMARTプルーナーの最適解が基本的な圧縮問題の最適解に等しくなることが示される。"