核心概念
본 연구는 최소한의 레이블 데이터를 사용하여 문서 객체(테이블 및 텍스트)를 정확하고 효율적으로 검출하는 접근법을 제안한다. 이 접근법은 학생-교사 네트워크를 활용하여 학습 과정에서 상호 업데이트를 수행한다. 이전 변환기 기반 연구는 주의 집중 메커니즘 개선 또는 객체 쿼리 수 증가에 초점을 맞추었지만, 이는 학습 시간과 성능에 영향을 미친다. 우리는 NMS가 필요 없도록 하고 객체 쿼리와 이미지 특징 간의 매칭에 초점을 맞춘다. 반자동 설정에서 SAM-DETR을 사용하는 우리의 새로운 접근법은 객체 쿼리와 대상 특징을 정렬하여 문서 객체 검출의 정확도를 크게 향상시킨다.
要約
본 연구는 문서 분석의 정확도를 향상시키는 반자동 학습 방법을 제안한다. 주요 내용은 다음과 같다:
-
기존 변환기 기반 연구는 주의 집중 메커니즘 개선 또는 객체 쿼리 수 증가에 초점을 맞추었지만, 이는 학습 시간과 성능에 영향을 미친다.
-
제안하는 접근법은 NMS가 필요 없도록 하고 객체 쿼리와 이미지 특징 간의 매칭에 초점을 맞춘다.
-
반자동 설정에서 SAM-DETR을 사용하여 객체 쿼리와 대상 특징을 정렬함으로써 문서 객체 검출의 정확도를 크게 향상시킨다.
-
학생-교사 네트워크를 활용하여 학습 과정에서 상호 업데이트를 수행함으로써 최소한의 레이블 데이터로도 우수한 성능을 달성한다.
-
실험 결과, 제안 방법은 기존 반자동 및 완전 지도 학습 방법에 비해 우수한 성능을 보인다.
統計
제안 방법은 PubTables 데이터셋에서 30% 레이블 데이터를 사용할 때 93.5 mAP를 달성했다.
PubLayNet 데이터셋에서 10% 레이블 데이터를 사용할 때 89.9 mAP를 달성했다.
TableBank 데이터셋에서 10% 레이블 데이터를 사용할 때 92.7 mAP를 달성했다.
引用
"제안하는 접근법은 NMS가 필요 없도록 하고 객체 쿼리와 이미지 특징 간의 매칭에 초점을 맞춘다."
"반자동 설정에서 SAM-DETR을 사용하여 객체 쿼리와 대상 특징을 정렬함으로써 문서 객체 검출의 정확도를 크게 향상시킨다."