이 논문은 문서 레이아웃 분석(DLA) 모델의 강건성을 평가하기 위한 새로운 벤치마크를 제안한다.
문서 왜곡 분류: 공간 변형, 내용 간섭, 일관성 왜곡, 흐림, 잡음 등 5가지 그룹의 12가지 문서 왜곡 유형을 정의하고, 각 유형별로 3단계의 심각도 수준을 설정하였다.
왜곡 평가 지표: 기존 지표의 한계를 극복하기 위해 평균 왜곡 효과(mPE)와 평균 강건성 저하(mRD) 지표를 제안하였다. 이를 통해 문서 왜곡의 영향과 모델의 강건성을 분리하여 평가할 수 있다.
강건한 DLA 모델 제안: 채널 주의 메커니즘과 평균 풀링 레이어를 활용하여 강건한 특징 추출을 가능하게 하는 RoDLA 모델을 제안하였다.
벤치마크 평가: PubLayNet-P, DocLayNet-P, M6Doc-P 데이터셋에서 RoDLA가 기존 모델 대비 우수한 강건성 성능을 보였다. 특히 SwinDocSegmenter와 비교하여 mRD 지표에서 각각 98.7, 147.0, 91.6 낮은 점수를 달성하였다.
To Another Language
from source content
arxiv.org
Djupare frågor