핵심 개념
대규모 언어 모델과 문서 이해 모델을 결합하여 단일 모델로 다양한 문서 분석 작업을 수행할 수 있는 새로운 접근법을 제안한다.
초록
이 논문은 LayoutLLM이라는 새로운 문서 분석 방법을 제안한다. LayoutLLM은 기존의 문서 이해 모델과 대규모 언어 모델을 결합하여 단일 모델로 다양한 문서 분석 작업을 수행할 수 있다.
주요 내용은 다음과 같다:
기존 문서 이해 모델은 각 작업과 데이터셋에 대해 별도의 fine-tuning이 필요하여 비용이 많이 든다는 한계가 있었다.
LayoutLLM은 문서 이미지 인코더와 대규모 언어 모델 디코더로 구성되어 있다. 문서 이미지 인코더는 문서의 시각적, 레이아웃 정보를 처리하고, 대규모 언어 모델 디코더는 문서의 텍스트 정보와 작업 지침을 이해하여 출력을 생성한다.
다양한 문서 분석 작업(문서 분류, 정보 추출, 문서 시각 질문 답변 등)에서 기존 모델 대비 성능 향상을 보였다.
언어 모델 학습과 문서 이해 작업 학습을 동시에 수행하여 언어 이해 능력도 향상되었다.
통계
문서 분류 작업에서 기존 최고 성능 대비 2.6%p 향상된 98.8%의 정확도를 달성했다.
문서 정보 추출 작업에서 FUNSD 데이터셋에서 3.2%p, CORD 데이터셋에서 1.0%p 향상된 성능을 보였다.
문서 시각 질문 답변 작업에서 3.5%p 향상된 86.9%의 정확도를 달성했다.
인용구
"기존 방식은 문서 내 언어적 맥락만을 고려하지만, 제안 방식은 언어 모델의 강점을 활용하여 문서 내용에 기반한 분류가 가능하다."
"제안 방식은 문서 이해 인코더와 언어 모델 디코더를 결합하여 단일 모델로 다양한 작업을 수행할 수 있다."