本研究では、視覚的質問応答(VQA)のためのグラフベースのアプローチを提案している。提案手法の中心にあるのは、Masking Graph Attention Network(M-GAT)であり、これにより答えの予測と同時に、入力グラフから最も関連性の高いサブグラフを生成することができる。
具体的には以下の通り:
提案手法は、GQAデータセットで高精度な答え予測を実現しつつ、人間評価でも優れた解釈性を示している。また、ノードの重要度や答え/質問トークンとの共起度などの定量的指標も、人間評価と高い相関を示している。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Pascal Tilli... às arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17647.pdfPerguntas Mais Profundas