Kernkonzepte
대규모 언어 모델과 문서 이해 모델을 결합하여 단일 모델로 다양한 문서 분석 작업을 수행할 수 있는 새로운 접근법을 제안한다.
Zusammenfassung
이 논문은 LayoutLLM이라는 새로운 문서 분석 방법을 제안한다. LayoutLLM은 기존의 문서 이해 모델과 대규모 언어 모델을 결합하여 단일 모델로 다양한 문서 분석 작업을 수행할 수 있다.
주요 내용은 다음과 같다:
- 기존 문서 이해 모델은 각 작업과 데이터셋에 대해 별도의 fine-tuning이 필요하여 비용이 많이 든다는 한계가 있었다.
- LayoutLLM은 문서 이미지 인코더와 대규모 언어 모델 디코더로 구성되어 있다. 문서 이미지 인코더는 문서의 시각적, 레이아웃 정보를 처리하고, 대규모 언어 모델 디코더는 문서의 텍스트 정보와 작업 지침을 이해하여 출력을 생성한다.
- 다양한 문서 분석 작업(문서 분류, 정보 추출, 문서 시각 질문 답변 등)에서 기존 모델 대비 성능 향상을 보였다.
- 언어 모델 학습과 문서 이해 작업 학습을 동시에 수행하여 언어 이해 능력도 향상되었다.
Statistiken
문서 분류 작업에서 기존 최고 성능 대비 2.6%p 향상된 98.8%의 정확도를 달성했다.
문서 정보 추출 작업에서 FUNSD 데이터셋에서 3.2%p, CORD 데이터셋에서 1.0%p 향상된 성능을 보였다.
문서 시각 질문 답변 작업에서 3.5%p 향상된 86.9%의 정확도를 달성했다.
Zitate
"기존 방식은 문서 내 언어적 맥락만을 고려하지만, 제안 방식은 언어 모델의 강점을 활용하여 문서 내용에 기반한 분류가 가능하다."
"제안 방식은 문서 이해 인코더와 언어 모델 디코더를 결합하여 단일 모델로 다양한 작업을 수행할 수 있다."