Core Concepts
セグメントアニシングモデルの大規模なメモリ使用量と計算コストを削減するため、バイモーダル分布の特性を分析し、それを正規分布に変換する「バイモーダル統合」戦略と、多様な注意スコアの分布に適応する「適応的粒度量子化」手法を提案する。
Abstract
セグメントアニシングモデル(SAM)は、コンピュータービジョンタスクで優れた性能を示しているが、大規模なモデルであるため、実用的な展開を阻害している課題がある。本論文では、SAMの学習後量子化(PTQ)手法であるPTQ4SAMを提案する。
まず、SAMの量子化における主要な障壁であるバイモーダル分布の特性を分析する。チャンネル単位の視点から、バイモーダル分布の2つのピークとその中心の空白領域が分布範囲を大幅に広げることを明らかにする。そこで、符号演算を利用して、この分布を等価的に正規分布に変換する「バイモーダル統合(BIG)」戦略を提案する。
次に、SAMは多様な注意メカニズム(自己注意と双方向クロス注意)を含むため、ポストソフトマックス分布にも大きな違いがある。そこで、ハードウェアに適した2の累乗ベースを最適に検索する「適応的粒度量子化(AGQ)」手法を導入する。
広範な実験結果から、PTQ4SAMは様々なビジョンタスク、データセット、モデルバリアントで優れた性能を示すことを確認した。例えば、SAM-Lを6ビットに量子化した場合、インスタンスセグメンテーションの精度を損なわずに、理論上3.9倍の高速化を達成できる。
Stats
SAMの注意スコアのポストソフトマックス分布には大きな違いがあり、約72.5%のイメージ-トークン間注意スコアが0.01以上なのに対し、トークン-イメージ間では0.4%しかない。
バイモーダル分布を正規分布に変換することで、量子化誤差を5倍以上削減できる。
Quotes
"SAMは多様な注意メカニズム(自己注意と双方向クロス注意)を含むため、ポストソフトマックス分布にも大きな違いがある。"
"バイモーダル分布の2つのピークとその中心の空白領域が分布範囲を大幅に広げることが、SAMの量子化における主要な障壁である。"