이 연구는 시각적 질문 답변(VQA) 문제에 대한 해석 가능한 접근법을 제안한다. 기존 VQA 모델은 주로 정확성과 효율성 측면에서 평가되었지만, 사용자와 개발자에게 모델의 내부 작동 원리를 설명하기 어려운 블랙박스로 여겨졌다.
이 연구에서는 그래프 신경망(GNN)을 활용하여 질문에 가장 관련성 있는 하위 그래프를 내재적으로 생성하는 모델을 제안한다. 이를 통해 모델의 예측 과정에 대한 설명을 제공한다.
구체적으로 다음과 같은 핵심 내용을 다룬다:
이 모델은 기존 VQA 모델 대비 경쟁력 있는 성능을 보이면서도, 내재적으로 설명을 제공한다는 점에서 차별화된다. 또한 사람 평가와 정량적 지표를 통해 생성된 하위 그래프의 품질을 검증하였다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Pascal Tilli... at arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17647.pdfDeeper Inquiries