核心概念
문서 레이아웃 분석 모델의 강건성을 향상시키기 위해 다양한 문서 왜곡을 포함하는 새로운 벤치마크를 제안하고, 이를 바탕으로 강건한 문서 레이아웃 분석 모델인 RoDLA를 개발하였다.
要約
이 연구는 문서 레이아웃 분석(DLA) 모델의 강건성을 체계적으로 평가하기 위한 새로운 벤치마크를 제안한다. 기존 벤치마크는 깨끗한 문서 데이터에 초점을 맞추었지만, 실제 응용 환경에서는 다양한 왜곡이 발생할 수 있다. 따라서 이 연구에서는 5가지 그룹의 12가지 문서 왜곡 유형과 3단계의 심각도 수준을 포함하는 포괄적인 왜곡 분류법을 제안하였다. 또한 왜곡의 영향을 평가하기 위한 새로운 지표인 평균 왜곡 효과(mPE)와 평균 강건성 저하(mRD)를 개발하였다.
이를 바탕으로 강건한 문서 레이아웃 분석 모델인 RoDLA를 제안하였다. RoDLA는 채널 주의 메커니즘과 평균 풀링 레이어를 통해 왜곡에 강인한 특징을 추출한다. 실험 결과, RoDLA는 깨끗한 데이터와 왜곡된 데이터 모두에서 최신 성능을 달성하였다. PubLayNet-P, DocLayNet-P, M6Doc-P 벤치마크에서 각각 70.0%, 65.6%, 61.7%의 평균 성능을 보였으며, 기존 최고 모델 대비 최대 12.1%의 성능 향상을 달성하였다.
統計
문서 왜곡이 없는 경우 모델의 mAP 성능은 96.0%이다.
다양한 왜곡이 적용된 경우 RoDLA의 평균 성능(P-Avg)은 PubLayNet-P에서 70.0%, DocLayNet-P에서 65.6%, M6Doc-P에서 61.7%이다.
RoDLA의 평균 강건성 저하(mRD) 점수는 PubLayNet-P에서 116.0, DocLayNet-P에서 135.7, M6Doc-P에서 147.6으로, 기존 최고 모델 대비 최대 91.6 낮은 수치를 보였다.
引用
"문서 레이아웃 분석(DLA)은 문서 이해의 필수적인 구성 요소이며, 전자 문서에서 실제 문서로의 전환은 고유한 과제를 제시한다."
"기존 DLA 모델은 왜곡된 문서 이미지에 대해 큰 성능 저하를 보이는데, 이는 DLA 모델의 강건성이 충분히 탐구되지 않았음을 보여준다."
"RoDLA는 채널 주의 메커니즘과 평균 풀링 레이어를 통해 왜곡에 강인한 특징을 추출하여, 깨끗한 데이터와 왜곡된 데이터 모두에서 최신 성능을 달성하였다."