이 논문은 문서 레이아웃 분석(DLA) 모델의 강건성을 평가하기 위한 새로운 벤치마크를 제안한다.
문서 왜곡 분류: 공간 변형, 내용 간섭, 일관성 왜곡, 흐림, 잡음 등 5가지 그룹의 12가지 문서 왜곡 유형을 정의하고, 각 유형별로 3단계의 심각도 수준을 설정하였다.
왜곡 평가 지표: 기존 지표의 한계를 극복하기 위해 평균 왜곡 효과(mPE)와 평균 강건성 저하(mRD) 지표를 제안하였다. 이를 통해 문서 왜곡의 영향과 모델의 강건성을 분리하여 평가할 수 있다.
강건한 DLA 모델 제안: 채널 주의 메커니즘과 평균 풀링 레이어를 활용하여 강건한 특징 추출을 가능하게 하는 RoDLA 모델을 제안하였다.
벤치마크 평가: PubLayNet-P, DocLayNet-P, M6Doc-P 데이터셋에서 RoDLA가 기존 모델 대비 우수한 강건성 성능을 보였다. 특히 SwinDocSegmenter와 비교하여 mRD 지표에서 각각 98.7, 147.0, 91.6 낮은 점수를 달성하였다.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Yufan Chen,J... klo arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14442.pdfSyvällisempiä Kysymyksiä