核心概念
疎な視覚言語モデルの性能を回復するために、交差モダリティ適応とSparseLoRAファインチューニングを提案する。
要約
本論文では、視覚言語モデル(VLM)の効率的な展開に向けて、モデル圧縮手法の研究に取り組んでいる。具体的には以下の2つの課題に取り組んでいる。
- モダリティ間のスパース性比率をどのように分布させるか
- 予備実験の結果、視覚モデルと言語モデルを同じスパース比率で圧縮するのが最適であることを発見した。
- 圧縮された疎なVLMの性能を修復する手法の開発
- 単一モダリティの疎モデルのファインチューニングとは異なり、VLMは複数モダリティ間の相互作用を含むため、専用の修復手法が必要となる。
- 提案手法「RESSA」では、タスク特化の性能向上と元の密なモデルからの知識蒸留の2つの目的関数を最適化する。
- さらに、疎なモデルとの互換性を持つSparseLoRAファインチューニングを導入し、スパース性を維持しつつ性能を回復する。
実験の結果、RESAは大幅な性能向上を達成し、特に構造化されたスパース性パターンにおいて顕著な効果を示した。
統計
圧縮率2:4のとき、提案手法RESAはInstructBLIP-Vicuna-7Bの性能を13.1%向上させた。
圧縮率70%のとき、RESAは47.6%の性能回復を実現した。
引用
"VLMsは複数モダリティ間の相互作用を含むため、専用の修復手法が必要となる。"
"提案手法RESAでは、タスク特化の性能向上と元の密なモデルからの知識蒸留の2つの目的関数を最適化する。"
"SparseLoRAファインチューニングにより、スパース性を維持しつつ性能を回復することができる。"