แนวคิดหลัก
문서 이미지를 입력으로 받아 텍스트와 레이아웃 정보를 통합적으로 생성하는 사전 학습 모델을 제안한다.
บทคัดย่อ
이 연구는 문서 이해 (VDU) 및 광학 문자 인식 (OCR) 작업을 위한 새로운 사전 학습 모델인 ViTLP를 제안한다. ViTLP는 문서 이미지를 입력으로 받아 텍스트와 레이아웃 정보를 통합적으로 생성하는 것을 목표로 한다.
주요 내용은 다음과 같다:
- 계층적 텍스트-레이아웃 생성 모듈을 통해 효과적이고 효율적인 텍스트-레이아웃 시퀀스 생성을 달성한다.
- 문서 길이에 관계없이 처리할 수 있도록 다중 세그먼트 사전 학습 방식을 도입한다.
- ViTLP는 문서 이미지로부터 텍스트 위치 및 인식, 문서 이해 등 다양한 작업을 수행할 수 있다.
- 실험 결과, ViTLP는 OCR 및 VDU 벤치마크 과제에서 우수한 성능을 보인다.
สถิติ
문서 이미지 입력을 통해 텍스트와 레이아웃 정보를 통합적으로 생성할 수 있다.
다중 세그먼트 사전 학습 방식을 통해 길이에 관계없이 문서를 처리할 수 있다.
คำพูด
"ViTLP는 문서 이미지로부터 텍스트 위치 및 인식, 문서 이해 등 다양한 작업을 수행할 수 있다."
"실험 결과, ViTLP는 OCR 및 VDU 벤치마크 과제에서 우수한 성능을 보인다."