Core Concepts
본 연구는 언어 정보 없이도 문서의 기하학적 특징을 활용하여 문서 내 엔티티와 관계를 효과적으로 학습할 수 있는 GeoContrastNet 모델을 제안한다.
Abstract
이 연구는 언어 정보 없이도 문서의 기하학적 특징을 활용하여 문서 내 엔티티와 관계를 효과적으로 학습할 수 있는 GeoContrastNet 모델을 제안한다.
첫 번째 단계에서는 문서를 그래프로 표현하고, 엣지 특징을 학습하기 위해 대조 학습 기법을 사용한다. 두 번째 단계에서는 이렇게 학습된 엣지 특징과 시각적 특징을 결합하여 그래프 주의 네트워크(GAT)를 통해 엔티티 인식과 관계 예측을 수행한다.
실험 결과, 제안 모델은 기존 언어 기반 접근법과 유사한 성능을 보이면서도 계산 효율성이 높고 다국어 환경에서도 적용 가능한 것으로 나타났다. 특히 양식 문서와 송장 문서에서 키-값 관계 예측 성능이 우수했다. 이는 문서 레이아웃의 기하학적 특징이 문서 이해에 매우 중요한 역할을 한다는 것을 보여준다.
Stats
문서 이미지는 노드와 엣지로 구성된 속성 그래프로 표현된다.
노드 특징은 바운딩 박스 좌표, 면적, 지역 인코딩으로 구성된다.
엣지 특징은 각도, 거리, 극좌표, 상대 위치로 구성된다.
Quotes
"언어 기반 문서 이해 접근법은 실제 산업 환경에 적용하기에는 계산 효율성이 낮고 다국어 환경에 제약이 있다."
"문서 레이아웃의 기하학적 특징은 문서 이해에 매우 중요한 역할을 한다."