Core Concepts
MM-SHAPは、視覚言語モデルの各モダリティ(視覚、言語)の予測への寄与度を性能非依存的に定量化するメトリック。
Abstract
本研究では、視覚言語(VL)モデルの各モダリティの寄与度を定量化する新しいメトリック「MM-SHAP」を提案した。MM-SHAPは、Shapley値に基づいて各トークンの寄与度を計算し、それを視覚と言語のモダリティ別に集計することで、モデルの各モダリティの相対的な寄与度を測る。
MM-SHAPの特徴は以下の通り:
- 性能指標(正解率など)に依存せず、モデルの予測に対する各モダリティの寄与度を定量化できる
- モデル間、タスク間、サンプル間での各モダリティの寄与度の違いを分析できる
- 事前学習モデルの fine-tuning による各モダリティの寄与度の変化を追跡できる
実験では、LXMERT、CLIP、ALBEF(4バリアント)の6つのVLモデルを、画像-文章整合性判定、VQA、GQAのタスクで評価した。結果は以下の通り:
- モデルによって、視覚と言語の寄与度のバランスが大きく異なることが分かった(CLIPはバランス、LXMERTは視覚寄り、ALBEFは言語寄り)
- 同一モデルでも、タスクやデータセットによって寄与度のバランスが変化する
- 事前学習モデルの fine-tuningによって、各モダリティの寄与度が変化する
以上より、MM-SHAPは、VLモデルの各モダリティの寄与度を定量的に分析し、モデルの信頼性や多様性を評価する上で有用なメトリックであると示された。
Stats
VLモデルの各モダリティの寄与度は、タスクやデータセットによって大きく変化する。
同一モデルでも、fine-tuningによって各モダリティの寄与度が変化する。
正解率が同じでも、各モダリティの寄与度は大きく異なる場合がある。
Quotes
"VL models tend to exploit artefacts and statistical correlations in the data (Shekhar et al., 2019; Kafle et al., 2019), showing little to no evidence of detailed linguistic or visual understanding (Milewski et al., 2022; Parcalabescu et al., 2022; Thrush et al., 2022)."
"Unimodal collapse is severe, as it leads to loss of system reliability. It also shows that multimodal fusion is far from being solved."