본 연구에서는 DETR, CascadeTabNet, PP OCR v2의 세 가지 최신 모델을 통합한 파이프라인을 제안합니다. 이를 통해 문서 이미지에서 표를 효과적으로 감지, 구조 인식, 내용 인식할 수 있습니다.
DETR 모델은 표를 정확하게 감지하고 고정 크기의 예측 집합을 생성합니다. CascadeTabNet 모델은 표 세그멘테이션과 셀 세그멘테이션을 수행하여 표 구조를 인식합니다. PP OCR v2 모델은 표 내 텍스트를 정확하게 감지하고 인식합니다. 이 세 모델을 통합하여 표 구조와 내용을 동시에 추출할 수 있습니다.
제안된 방법은 기존 접근법보다 우수한 성능을 보입니다. 실험 결과, 제안 모델은 IOU 0.96, OCR 정확도 78%를 달성하여 약 25% 향상된 성능을 보였습니다. 또한 추론 속도 면에서도 기존 방법보다 빠른 것으로 나타났습니다.
이 통합 접근법은 다양한 표 스타일, 복잡한 구조, 문서 이미지의 왜곡 문제를 효과적으로 해결하여 이미지 기반 표 인식 기술의 발전에 기여할 것으로 기대됩니다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Avinash Anan... في arxiv.org 04-17-2024
https://arxiv.org/pdf/2404.10305.pdfاستفسارات أعمق