Główne pojęcia
GRAM은 기존의 단일 페이지 문서 이해 모델을 확장하여 다중 페이지 문서에 대한 이해 능력을 향상시킨다. 페이지 수준의 이해와 문서 수준의 추론을 결합하여 효과적으로 문서 전체에 걸친 정보 흐름을 달성한다.
Streszczenie
GRAM은 단일 페이지 문서 이해 모델을 기반으로 하여, 다중 페이지 문서 처리 기능을 추가한다. 각 페이지에 대한 이해와 문서 전체에 걸친 추론을 결합하는 방식으로 구현된다.
구체적으로:
- 페이지 수준의 이해를 위해 기존 단일 페이지 모델의 인코더 레이어를 활용한다.
- 문서 수준의 추론을 위해 학습 가능한 문서 토큰을 도입하고, 페이지 간 정보 교환을 위한 전용 인코더 레이어를 추가한다.
- 문서 토큰의 중요성을 높이기 위한 편향 적응 기법을 적용한다.
- 디코딩 단계의 계산 부담을 줄이기 위해 압축 변환기(C-Former) 모듈을 도입한다.
이를 통해 GRAM은 기존 단일 페이지 모델 대비 다중 페이지 문서 이해 성능을 크게 향상시킬 수 있다.
Statystyki
문서는 수십 페이지에 걸쳐 있는 경우가 많다.
기존 변환기 모델은 입력 길이가 길어질수록 계산 및 메모리 소모가 급격히 증가하는 문제가 있다.
다중 페이지 문서 질의응답 데이터셋(MPDocVQA)과 DUDE 데이터셋은 이러한 실제 문서 이해 과제를 다룬다.
Cytaty
"문서 이해, 특히 DocVQA 맥락에서 상당한 연구 관심을 끌고 있으며, 데이터 추출과 단일 페이지 문서 분석에 초점을 맞추고 있다. 그러나 다중 페이지 DocVQA(MP-DocVQA)는 더 현실적인 과제를 제시한다."
"최근 DocVQA 접근법은 변환기[35]를 핵심 아키텍처로 활용하고 있다. 변환기는 강력한 도구이지만, 긴 입력 시퀀스를 다루는 데 어려움을 겪는다."