Concepts de base
문서 이미지와 질문 간의 관련성을 자기 주의 메커니즘을 통해 효율적으로 평가하여 다중 페이지 문서 시각적 질문 답변 문제를 해결할 수 있다.
Résumé
이 논문은 다중 페이지 문서 시각적 질문 답변(MP-DocVQA) 문제를 해결하기 위한 새로운 방법을 제안한다. 기존의 단일 페이지 문서 VQA 모델을 확장하여 다중 페이지 시나리오에 적용할 수 있도록 하였다.
주요 내용은 다음과 같다:
- 문서 이미지와 질문 간의 관련성을 평가하기 위한 자기 주의 점수 메커니즘을 제안하였다. 이를 통해 관련성이 높은 페이지를 효율적으로 선별할 수 있다.
- 단일 긍정 페이지와 랜덤 선택된 부정 페이지를 활용하는 효율적인 학습 방식을 도입하였다.
- 텍스트와 이미지 모달리티를 단순히 픽셀 기반 표현으로 정렬하는 새로운 관점을 제시하였다.
- MP-DocVQA 데이터셋을 확장하여 최대 793페이지까지의 문서를 포함하는 실제적인 시나리오에서 평가를 수행하였다. 제안 방법은 이러한 확장된 평가에서도 만족스러운 성능을 보였다.
Stats
제안 방법은 기존 최대 20페이지 제한을 넘어 최대 793페이지의 문서에서도 안정적인 성능을 보였다.
확장된 테스트 셋에서 페이지 예측 정확도는 약 25% 감소하였지만, ANLS 성능은 13% 미만으로 감소하였다.
Citations
"문서는 2차원 문자 통신 매체이며, 따라서 해석에는 텍스트와 시각 정보를 효율적으로 결합하는 다중 모달 접근 방식이 필요하다."
"제안 방법은 OCR 주석 없이도 단일 페이지 문서 VQA 모델을 다중 페이지 시나리오로 확장할 수 있으며, GPU 리소스 사용도 최소화할 수 있다."