"Given that image tokens contribute minimally to output generation in deeper layers due to diminished attention, why not consider removing them at these stages?"
LLM(Large Language Models)内で観察されたアテンショントーケンドリング(Attention Token Ranking)パターンから得た洞察から分かるように、「頭部」トーケンド(Head Tokens)が推論フェーズで重要な役割を果たす傾向がある点でも共通点があります。そのため、「StreamingLLM」と呼ばれる既存手法で提案されたアティッショナル最適化技術も同様にLVLMへ応用可能だろうと仮定されました。
しかし実際の実験結果からわかったように、「StreamingLLM」で提案された特定アティッショナルハイキャッシュ最適化手法(Large Language Model Serving with Paged Attention) を LVLM へ直接適用した場合でも大幅なパフォーマンス低下しか引き起こしませんでした。これはビジュアル情報という異種情報源間で異なる振る舞いや貢献度レヘンス(Contribution Level) あ存在し,ビジュアル情報源内部及外部間(Across and Within Visual Information Sources) の相互作用(Mutual Interaction) も含みます。