핵심 개념
대형 언어 모델과 문서 이해 모델을 결합하여 다양한 문서 분석 작업을 단일 모델로 수행할 수 있는 새로운 접근법을 제안한다.
통계
문서 분류 데이터셋 RVL-CDIP에서 기존 최고 성능 대비 2.6%p 향상된 98.8% 정확도를 달성했다.
문서 정보 추출 데이터셋 FUNSD와 CORD에서 각각 3.2%p, 1.0%p 향상된 95.3%, 98.6%의 F1 점수를 기록했다.
문서 질의응답 데이터셋 DocVQA에서 기존 최고 성능 대비 3.5%p 향상된 86.9%의 정확도를 달성했다.
인용구
"기존 방식은 문서 내용에 대한 언어적 맥락만 고려하지만, 제안 방식은 언어 모델의 강점을 활용하여 문서 내용을 더 잘 분류할 수 있다."
"제안 방식은 문서 이해와 언어 이해 작업을 동시에 학습하여, 상호 보완적으로 성능이 향상되었다."