SNPは、マルチヘッド自己注意(MSA)モジュールの注意スコアを保持しつつ、ニューロンレベルで効果的に圧縮・高速化することができる。
ビジョントランスフォーマーの高い計算コストと大きなメモリ需要を解決するために、量子化、低ランク近似、知識蒸留、プルーニングなどの主要な圧縮手法を評価し、それらの組み合わせによる性能向上を示す。