이 연구는 문서 레이아웃 분석(DLA) 모델의 강건성을 체계적으로 평가하기 위한 새로운 벤치마크를 제안한다. 기존 벤치마크는 깨끗한 문서 데이터에 초점을 맞추었지만, 실제 응용 환경에서는 다양한 왜곡이 발생할 수 있다. 따라서 이 연구에서는 5가지 그룹의 12가지 문서 왜곡 유형과 3단계의 심각도 수준을 포함하는 포괄적인 왜곡 분류법을 제안하였다. 또한 왜곡의 영향을 평가하기 위한 새로운 지표인 평균 왜곡 효과(mPE)와 평균 강건성 저하(mRD)를 개발하였다.
이를 바탕으로 강건한 문서 레이아웃 분석 모델인 RoDLA를 제안하였다. RoDLA는 채널 주의 메커니즘과 평균 풀링 레이어를 통해 왜곡에 강인한 특징을 추출한다. 실험 결과, RoDLA는 깨끗한 데이터와 왜곡된 데이터 모두에서 최신 성능을 달성하였다. PubLayNet-P, DocLayNet-P, M6Doc-P 벤치마크에서 각각 70.0%, 65.6%, 61.7%의 평균 성능을 보였으며, 기존 최고 모델 대비 최대 12.1%의 성능 향상을 달성하였다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Yufan Chen,J... ב- arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14442.pdfשאלות מעמיקות