Core Concepts
문서의 물리적 레이아웃과 논리적 구조를 이해하기 위해 문서 구조 분석(DSA)이 필수적이며, 특히 LaTeX, Microsoft Word, HTML과 같은 계층적 스키마를 사용하는 저자 소프트웨어로 작성된 구조화된 문서의 계층적 관계를 추출하고 복원하는 계층적 문서 구조 분석(HDSA)이 중요하다.
Abstract
이 논문은 문서 구조 분석을 위한 새로운 접근법인 "Detect-Order-Construct" 프레임워크를 제안한다. 이 프레임워크는 3단계로 구성되어 있다:
Detect 단계: 문서 이미지에서 개별 페이지 객체를 식별하고 각 객체의 논리적 역할을 지정한다. 이를 위해 상향식 텍스트 영역 감지 모델을 사용한다.
Order 단계: 감지된 페이지 객체들의 읽기 순서를 결정한다. 다중 모달 트랜스포머 기반 관계 예측 모델을 사용하여 텍스트 영역과 그래픽 영역 간의 읽기 순서 관계를 예측한다.
Construct 단계: 섹션 제목 간의 계층적 관계를 추출하여 문서의 전체 계층적 구조를 복원한다. 또한 이를 위해 구조 인식 트랜스포머 기반 관계 예측 모델을 사용한다.
이 3단계를 통해 문서의 완전한 계층적 구조 트리를 효과적으로 구축할 수 있다. 제안된 접근법은 PubLayNet, DocLayNet, HRDoc 데이터셋에서 최신 성능을 달성했으며, 새로 제안된 Comp-HRDoc 벤치마크에서도 우수한 성과를 보였다.
Stats
문서 이미지에서 추출된 텍스트 라인들은 문서의 기본 의미 단위로 사용된다.
문서 이미지는 여러 페이지로 구성되어 있다.