이 연구에서는 CREPE 모델이 단일 문서 이미지뿐만 아니라 다중 문서 이미지에 대해서도 효과적으로 문서 파싱을 수행할 수 있음을 보여준다.
기존의 문서 파싱 모델들은 입력 이미지에 단일 문서만 포함되어 있다는 가정 하에 설계되었기 때문에, 다중 문서 이미지를 입력으로 받으면 파싱 결과가 뒤섞이거나 손상될 수 있다.
CREPE 모델은 문서 이미지와 파싱 어노테이션을 합성하여 다중 문서 데이터셋을 생성하고, 파싱 결과를 구분할 수 있는 특수 토큰을 사용하여 다중 문서 이미지에 대한 파싱을 수행한다. 실험 결과, CREPE 모델은 단일 문서 이미지에 대한 파싱 성능과 유사한 수준의 성능을 보였다. 이를 통해 CREPE 모델이 다중 문서 이미지에 대한 효과적인 파싱이 가능함을 확인할 수 있다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Yamato Okamo... alle arxiv.org 05-02-2024
https://arxiv.org/pdf/2405.00260.pdfDomande più approfondite