本研究では、視覚的質問応答(VQA)のためのグラフベースのアプローチを提案している。提案手法の中心にあるのは、Masking Graph Attention Network(M-GAT)であり、これにより答えの予測と同時に、入力グラフから最も関連性の高いサブグラフを生成することができる。
具体的には以下の通り:
提案手法は、GQAデータセットで高精度な答え予測を実現しつつ、人間評価でも優れた解釈性を示している。また、ノードの重要度や答え/質問トークンとの共起度などの定量的指標も、人間評価と高い相関を示している。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Pascal Tilli... a las arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17647.pdfConsultas más profundas