核心概念
DELINE8K는 역사적 문서의 의미론적 분할을 위한 가장 포괄적인 합성 데이터 파이프라인이다.
摘要
이 논문은 문서 의미론적 분할에 대한 연구를 소개한다. 문서 의미론적 분할은 문서 분석 작업, 광학 문자 인식(OCR), 양식 분류, 문서 편집 등을 용이하게 할 수 있는 유망한 방법이다.
기존의 합성 데이터셋은 클래스 다양성과 문서 다양성이 부족하다는 한계가 있다. 이 논문에서는 국립 문서 보관소 양식 의미론적 분할 데이터셋(NAFSS)을 소개하고, 이를 해결하기 위해 DELINE8K 데이터셋을 제안한다.
DELINE8K는 10개 이상의 소스에서 추출한 사전 인쇄 텍스트, 필기, 문서 배경을 통합하여 가장 포괄적인 문서 의미론적 분할 합성 파이프라인을 구현한다. 이 맞춤형 데이터셋은 NAFSS 벤치마크에서 우수한 성능을 보여, 향후 연구에 유용한 도구로 입증되었다.
統計資料
역사적 문서에서 필기와 인쇄 텍스트를 구분하는 것은 어려운 과제이다.
기존 합성 데이터셋은 클래스 다양성과 문서 다양성이 부족하다.
DELINE8K는 10개 이상의 소스에서 추출한 사전 인쇄 텍스트, 필기, 문서 배경을 통합하여 가장 포괄적인 문서 의미론적 분할 합성 파이프라인을 구현했다.
DELINE8K는 NAFSS 벤치마크에서 우수한 성능을 보였다.
引述
"문서 의미론적 분할은 문서 분석 작업, 광학 문자 인식(OCR), 양식 분류, 문서 편집 등을 용이하게 할 수 있는 유망한 방법이다."
"기존의 합성 데이터셋은 클래스 다양성과 문서 다양성이 부족하다는 한계가 있다."
"DELINE8K는 10개 이상의 소스에서 추출한 사전 인쇄 텍스트, 필기, 문서 배경을 통합하여 가장 포괄적인 문서 의미론적 분할 합성 파이프라인을 구현했다."