Core Concepts
이미지에서 테이블 구조와 셀 내용을 동시에 인식하는 end-to-end 모델을 제안하였다. 다중 셀 디코더와 양방향 상호 학습 메커니즘을 도입하여 이웃 셀의 정보를 활용하고 이전 및 이후 셀에 주목하도록 하였다.
Abstract
이 논문은 이미지에서 테이블 구조와 셀 내용을 동시에 인식하는 end-to-end 모델을 제안한다. 기존 연구에서는 테이블 구조 인식과 셀 내용 인식을 독립적으로 수행했지만, 제안 모델은 다음과 같은 두 가지 핵심 기여를 통해 성능을 향상시켰다.
다중 셀 디코더: 셀 내용 인식 시 이웃 셀의 정보를 활용할 수 있도록 하였다. 기존 연구에서는 각 셀을 독립적으로 처리했지만, 제안 모델은 계층적 디코더를 통해 다중 셀을 동시에 인식한다.
양방향 상호 학습: 테이블 구조 인식 시 이전 및 이후 셀에 주목하도록 하는 양방향 상호 학습 메커니즘을 도입하였다. 이를 통해 모델이 테이블 전체 구조를 효과적으로 학습할 수 있다.
실험 결과, 제안 모델은 두 개의 대규모 테이블 데이터셋에서 기존 최신 모델들을 능가하는 성능을 보였다. 특히 셀 수가 많은 복잡한 테이블에서 두드러진 성능 향상을 확인할 수 있었다.
Stats
테이블 구조 인식 정확도(TEDS)가 98.87%로 기존 최고 모델 대비 0.02% 향상되었다.
전체 인식 정확도(TEDS)가 97.69%로 기존 최고 모델 대비 1.95% 향상되었다.
Quotes
"이 논문은 이미지에서 테이블 구조와 셀 내용을 동시에 인식하는 end-to-end 모델을 제안한다."
"제안 모델은 다중 셀 디코더와 양방향 상호 학습 메커니즘을 도입하여 이웃 셀의 정보를 활용하고 이전 및 이후 셀에 주목하도록 하였다."
"실험 결과, 제안 모델은 두 개의 대규모 테이블 데이터셋에서 기존 최신 모델들을 능가하는 성능을 보였다."