본 연구는 문서 분석의 정확도를 향상시키는 반자동 학습 방법을 제안한다. 주요 내용은 다음과 같다:
기존 변환기 기반 연구는 주의 집중 메커니즘 개선 또는 객체 쿼리 수 증가에 초점을 맞추었지만, 이는 학습 시간과 성능에 영향을 미친다.
제안하는 접근법은 NMS가 필요 없도록 하고 객체 쿼리와 이미지 특징 간의 매칭에 초점을 맞춘다.
반자동 설정에서 SAM-DETR을 사용하여 객체 쿼리와 대상 특징을 정렬함으로써 문서 객체 검출의 정확도를 크게 향상시킨다.
학생-교사 네트워크를 활용하여 학습 과정에서 상호 업데이트를 수행함으로써 최소한의 레이블 데이터로도 우수한 성능을 달성한다.
실험 결과, 제안 방법은 기존 반자동 및 완전 지도 학습 방법에 비해 우수한 성능을 보인다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Tahira Shehz... lúc arxiv.org 05-02-2024
https://arxiv.org/pdf/2405.00187.pdfYêu cầu sâu hơn