Centrala begrepp
提案手法は、答えの予測と同時に、入力グラフから最も関連性の高いサブグラフを生成することで、解釈可能性を高めている。
Sammanfattning
本研究では、視覚的質問応答(VQA)のためのグラフベースのアプローチを提案している。提案手法の中心にあるのは、Masking Graph Attention Network(M-GAT)であり、これにより答えの予測と同時に、入力グラフから最も関連性の高いサブグラフを生成することができる。
具体的には以下の通り:
- 質問処理モジュールでは、質問をベクトル表現に変換し、グラフ処理に活用する。
- シーングラフエンコーダでは、ノードとエッジの情報をベクトル化する。
- M-GATでは、ノードの重要度スコアを計算し、これに基づいて二値のマスクを生成する。このマスクを使ってメッセージ伝播を制限し、最終的な答えの予測と同時に、関連性の高いサブグラフを出力する。
- 最後に、グラフ表現とマスクを組み合わせて答えを予測する。
提案手法は、GQAデータセットで高精度な答え予測を実現しつつ、人間評価でも優れた解釈性を示している。また、ノードの重要度や答え/質問トークンとの共起度などの定量的指標も、人間評価と高い相関を示している。
Statistik
答えトークンが含まれるノードの割合は、提案手法で75.15%、GNNExplainerで89.12%。
質問トークンが含まれるノードの割合は、提案手法で78.35%、GNNExplainerで59.67%。
提案手法のサブグラフを除去すると、答え精度が37.13%に低下する。一方、GNNExplainerは33.28%、ランダムは52.10%の低下に留まる。