이 연구는 문서 레이아웃 분석(DLA) 모델의 강건성을 체계적으로 평가하기 위한 새로운 벤치마크를 제안한다. 기존 벤치마크는 깨끗한 문서 데이터에 초점을 맞추었지만, 실제 환경에서는 다양한 왜곡이 발생할 수 있다. 따라서 이 연구에서는 5가지 그룹과 12가지 유형의 문서 왜곡을 정의하고, 3단계의 심각도 수준을 포함하는 포괄적인 왜곡 분류법을 제안하였다.
또한 왜곡의 영향을 평가하기 위한 새로운 지표인 평균 왜곡 효과(mPE)와 평균 강건성 저하(mRD)를 개발하였다. 이를 통해 모델의 강건성을 보다 정확하게 측정할 수 있다.
이 연구는 제안된 벤치마크를 사용하여 10개의 단일 및 다중 모달 DLA 방법을 평가하였다. 그 결과, 제안된 RoDLA 모델이 깨끗한 데이터와 왜곡된 데이터 모두에서 최고 성능을 달성하였다. RoDLA는 주목 메커니즘을 최적화하여 강건한 특징 추출을 가능하게 한다.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Yufan Chen,J... klokken arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14442.pdfDypere Spørsmål