Concepts de base
본 연구는 시각적 질문 답변 과정에서 가장 관련성 있는 하위 그래프를 내재적으로 생성하여 설명을 제공하는 해석 가능한 접근법을 제안한다.
Résumé
이 연구는 시각적 질문 답변(VQA) 문제에 대한 해석 가능한 접근법을 제안한다. 기존 VQA 모델은 주로 정확성과 효율성 측면에서 평가되었지만, 사용자와 개발자에게 모델의 내부 작동 원리를 설명하기 어려운 블랙박스로 여겨졌다.
이 연구에서는 그래프 신경망(GNN)을 활용하여 질문에 가장 관련성 있는 하위 그래프를 내재적으로 생성하는 모델을 제안한다. 이를 통해 모델의 예측 과정에 대한 설명을 제공한다.
구체적으로 다음과 같은 핵심 내용을 다룬다:
- 질문 처리를 위한 인코더-디코더 아키텍처 구현
- 장면 그래프 인코딩 모듈을 통한 시각 정보 표현
- 마스킹 그래프 주의 집중 신경망(M-GAT)을 통한 중요 하위 그래프 생성
- 전역 주의 집중 메커니즘을 활용한 최종 답변 예측
이 모델은 기존 VQA 모델 대비 경쟁력 있는 성능을 보이면서도, 내재적으로 설명을 제공한다는 점에서 차별화된다. 또한 사람 평가와 정량적 지표를 통해 생성된 하위 그래프의 품질을 검증하였다.
Stats
본 모델은 GQA 데이터셋을 활용하여 평가되었다.
제안 모델의 정답률은 94.79%로, 기존 최고 성능 모델(GAT, 94.78%)과 유사한 수준이다.
하위 그래프에 포함된 답변 토큰의 비율은 75.15%이며, 질문 토큰의 비율은 78.35%로 나타났다.
하위 그래프를 제거했을 때 정답률이 37.13%로 크게 감소하여, 하위 그래프가 예측에 중요한 역할을 함을 보여준다.
Citations
"본 연구는 시각적 질문 답변 과정에서 가장 관련성 있는 하위 그래프를 내재적으로 생성하여 설명을 제공하는 해석 가능한 접근법을 제안한다."
"이 모델은 기존 VQA 모델 대비 경쟁력 있는 성능을 보이면서도, 내재적으로 설명을 제공한다는 점에서 차별화된다."