Core Concepts
문서 레이아웃 정보를 효과적으로 활용하여 문서 이해 성능을 향상시키는 새로운 방법인 LayoutLLM을 제안한다.
Abstract
이 논문은 문서 이해를 위한 새로운 방법인 LayoutLLM을 제안한다. LayoutLLM은 대규모 언어 모델(LLM)과 문서 사전 학습 모델을 결합하여 문서 레이아웃 정보를 효과적으로 활용한다.
레이아웃 지침 미세 조정 전략은 두 단계로 구성된다:
- 레이아웃 인지 사전 학습: 문서 수준, 영역 수준, 세그먼트 수준의 다양한 사전 학습 과제를 통해 문서 레이아웃에 대한 이해를 높인다.
- 레이아웃 인지 감독 미세 조정: 새로운 모듈인 LayoutCoT를 도입하여 질문에 관련된 영역에 집중하고 레이아웃 특성을 활용하여 정확한 답변을 생성한다. 이를 통해 해석 가능성도 제공한다.
실험 결과, LayoutLLM은 기존 LLM 및 MLLM 기반 방법들에 비해 문서 이해 성능이 크게 향상되었음을 보여준다.
Stats
문서 이미지 캡셔닝 데이터셋에서 캡션의 평균 길이는 36.27단어이지만, 제안된 문서 밀집 설명 데이터셋에서는 373.25단어이다.
문서 레이아웃 분석 데이터셋에는 문서 레이아웃 유형 기반 영역 위치 찾기와 주어진 영역의 레이아웃 유형 분류 과제가 포함된다.
표 이해 데이터셋에는 표의 행과 열 수, 논리적 좌표, 행과 열의 내용 등에 대한 과제가 포함된다.
Quotes
"문서 레이아웃 정보는 문서 이해에 매우 중요하지만, 기존 LLM/MLLM 기반 방법들은 이를 효과적으로 활용하지 못했다."
"제안된 레이아웃 지침 미세 조정 전략은 문서 이해 성능을 크게 향상시키고 해석 가능성도 제공한다."