Belangrijkste concepten
大規模ビジョンファウンデーションモデルを低ランクアダプターを用いて混合精度量子化スーパーネットに微調整することで、ビットワイズ演算の大幅な削減を実現しつつ性能劣化を抑えることができる。
Samenvatting
本論文では、大規模ビジョンファウンデーションモデル(VFM)を効率的に圧縮し、様々なハードウェアに展開するための手法を提案している。
まず、VFMをミックスプレシジョン量子化スーパーネットに微調整するための効果的な検索空間設計について検討した。入力解像度、特徴マップサイズ、深さ、埋め込み次元、ビット幅などの演算子を比較し、性能とビットワイズ演算(BitOPs)の削減のトレードオフを分析した。
次に、メモリ効率的なスーパーネット学習手法として、低ランクアダプター(LoRA)を用いた手法を提案した。単純にLoRAを適用するだけでは、特に超低ビット幅のサブネットの性能が低下するため、選択的LoRAおよびマルチプレックスLoRAアーキテクチャを提案した。これらは、ビット幅に応じて適応的にLoRA重みを更新することで、スーパーネットの表現力を高めている。さらに、超低ビット幅のサブネットの性能を向上させるためのプログレッシブな学習手法も提案した。
提案手法をセマンティックセグメンテーションおよびインスタンスセグメンテーションタスクで評価した結果、従来手法と比べて同等以上の性能を維持しつつ、約95%のBitOPsを削減できることを示した。
Statistieken
SAMのイメージエンコーダのFLOPsは約2900Gで、最小48GBのメモリGPUが必要
提案手法はQFA*と比べて、ADE20kデータセットで平均1.69%、COCOデータセットで3.12%の性能向上を達成
Citaten
大規模ビジョンファウンデーションモデルのパラメータサイズとビットワイズ演算(BitOPs)は非常に大きい
例えば、Segment Anything Model (SAM)のイメージエンコーダは約3000TのBitOPsを要する