本研究では、マルチモーダルモデルBLIP-2の推論効率化に取り組んでいる。BLIP-2は画像理解と言語理解を統合したモデルで、大規模言語モデル(LLM)のデコーダが推論の大部分を占めている。
従来の手法では、モデルの精度が大幅に低下してしまうという課題があった。そこで本研究では、クロスアテンションを活用したトークンプルーニング手法CATP(Cross-Attention Token Pruning)を提案している。
CATPは、Q-Formerのクロスアテンション層から得られる情報を活用して、各クエリトークンの重要度を判断する。具体的には、各画像トークンがクエリトークンに投票する仕組みを導入し、投票数の合計をトークンの重要度スコアとしている。
実験の結果、CATPは既存手法と比べて最大12.1倍の精度向上を達成できることが示された。さらに、画像トークンの重要度を考慮したweighted votingや、クロスアテンション層の重要度を考慮することで、さらなる精度向上が期待できることが明らかになった。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Ruqi Liao,Ch... klokken arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08567.pdfDypere Spørsmål