Core Concepts
階層的ビジョントランスフォーマーの特性を考慮し、データ非依存型の重要度メトリックを用いることで、効率的な圧縮を実現する。
Abstract
本論文では、階層的ビジョントランスフォーマーの圧縮のために、データ非依存型のモジュール認識プルーニング手法(DIMAP)を提案している。
階層的ビジョントランスフォーマーには以下の2つの特徴がある:
ローカルな自己注意機構により、画像サイズに対して線形的な計算量を実現する。
深層レイヤーでパッチをマージすることで、粗から細かい特徴を抽出する階層的な特徴マップを生成する。
従来のプルーニング手法は、これらの特徴を考慮せず、単純に重みの大きさを基準としていた。この方法には以下の2つの問題がある:
「ローカル」な注意重みを「グローバル」な基準で比較するため、相対的に小さな重みが削除されてしまう。
異なるレイヤーの重み分布の違いを考慮できないため、階層的な特徴抽出に悪影響を及ぼす。
DIMAPでは、以下の2つの対策を講じている:
モジュール単位で情報歪みを分析し、重要度を評価することで、ローカルとグローバルの比較を公平に行う。
入力データに依存しない新しい重要度メトリックを提案することで、レイヤー間の重み分布の違いを考慮できる。
実験では、Swin Transformerの圧縮に適用し、従来手法と比較して優れた性能を示している。例えば、Swin-Bモデルの場合、52.5%のFLOPsと52.7%のパラメータを削減しても、Top-5精度の低下は0.07%に抑えられている。また、Swin-Sモデルでは、33.2%のFLOPsと33.2%のパラメータを削減しつつ、Top-5精度が0.8%向上している。
Stats
Swin-Bモデルの場合、52.5%のFLOPsと52.7%のパラメータを削減しても、Top-5精度の低下は0.07%に抑えられている。
Swin-Sモデルの場合、33.2%のFLOPsと33.2%のパラメータを削減しつつ、Top-5精度が0.8%向上している。