SNPは、マルチヘッド自己注意(MSA)モジュールの注意スコアを保持しつつ、ニューロンレベルで効果的に圧縮・高速化することができる。


coremsg

snpによる注意スコアの保持を目的とした構造化ニューロンレベルの畳み込み


SNPによる注意スコアの保持を目的とした構造化ニューロンレベルの畳み込み



ビジョントランスフォーマーの高い計算コストと大きなメモリ需要を解決するために、量子化、低ランク近似、知識蒸留、プルーニングなどの主要な圧縮手法を評価し、それらの組み合わせによる性能向上を示す。