核心概念
クロスアテンションを活用したトークンプルーニング手法CATP(Cross-Attention Token Pruning)は、マルチモーダルモデルの推論精度を大幅に向上させることができる。
要約
本研究では、マルチモーダルモデルBLIP-2の推論効率化に取り組んでいる。BLIP-2は画像理解と言語理解を統合したモデルで、大規模言語モデル(LLM)のデコーダが推論の大部分を占めている。
従来の手法では、モデルの精度が大幅に低下してしまうという課題があった。そこで本研究では、クロスアテンションを活用したトークンプルーニング手法CATP(Cross-Attention Token Pruning)を提案している。
CATPは、Q-Formerのクロスアテンション層から得られる情報を活用して、各クエリトークンの重要度を判断する。具体的には、各画像トークンがクエリトークンに投票する仕組みを導入し、投票数の合計をトークンの重要度スコアとしている。
実験の結果、CATPは既存手法と比べて最大12.1倍の精度向上を達成できることが示された。さらに、画像トークンの重要度を考慮したweighted votingや、クロスアテンション層の重要度を考慮することで、さらなる精度向上が期待できることが明らかになった。
統計
BLIP-2モデルは合計3.1億パラメータを持ち、そのうちLLMデコーダが2.7億パラメータを占めている。
CATP(keep 1/8)は、既存手法と比べて最大12.1倍の精度向上を達成した。
引用
"クロスアテンションを活用したトークンプルーニング手法CATPは、マルチモーダルモデルの推論精度を大幅に向上させることができる。"
"CATPは、Q-Formerのクロスアテンション層から得られる情報を活用して、各クエリトークンの重要度を判断する。"