이 연구는 문서 이해 (VDU) 및 광학 문자 인식 (OCR) 작업을 위한 새로운 사전 학습 모델인 ViTLP를 제안한다. ViTLP는 문서 이미지를 입력으로 받아 텍스트와 레이아웃 정보를 통합적으로 생성하는 것을 목표로 한다.
주요 내용은 다음과 같다:
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Zhiming Mao,... kl. arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16516.pdfDybere Forespørgsler