toplogo
Sign In

사망 증명서에서 자동으로 추출된 개체를 인식하는 프로젝트 REE-HDSC


Core Concepts
본 프로젝트는 수작업 문자 인식(HTR) 소프트웨어로 생성된 텍스트에서 자동으로 추출된 개체의 품질을 향상시키기 위한 노력을 설명합니다. 6단계 처리 파이프라인을 제시하고, 이를 통해 19-20세기 퀴라소 섬 민적 등록부의 사망 증명서를 처리한 결과를 보여줍니다. 날짜 추출은 높은 정확도를 보이지만, 개인 이름 추출의 정확도는 낮습니다. 이름 추출 정확도를 향상시키기 위해 이름 데이터로 HTR 모델을 재학습하고, 후처리 및 잘못된 이름 제거 방법을 제시합니다.
Abstract
본 프로젝트는 수작업 문자 인식(HTR) 소프트웨어로 생성된 텍스트에서 자동으로 추출된 개체의 품질을 향상시키기 위한 노력을 설명합니다. 데이터 준비 단계에서는 퀴라소 섬 1831-1950년 사이의 사망 증명서 스캔 데이터를 분석하고 정리했습니다. 데이터에는 세 가지 주요 형식의 증명서 양식이 있었습니다. 파이프라인 구현 단계에서는 6가지 작업을 수행했습니다: 레이아웃 분석: 증명서의 레이아웃(열 수)을 결정합니다. 기준선 감지: 텍스트 줄의 위치를 찾습니다. 필기 텍스트 감지: 증명서의 인쇄 텍스트와 필기 텍스트를 인식합니다. 개체 인식: 관심 있는 개체(이름, 위치, 날짜, 나이, 직업 등)를 식별합니다. 이름 수정: 증명서 내 다른 위치에서 언급된 이름 부분을 결합합니다. 개체 연결: 다른 증명서에서 동일한 개인 이름을 식별하고 연결합니다. 이름 인식 품질 향상을 위해 다음과 같은 방법을 시도했습니다: HTR에 더 많은 이름 예제 제공 다른 HTR 소프트웨어(Loghi) 적용 HTR 언어 모델 재학습 결과적으로 날짜 추출은 높은 정확도를 보였지만, 개인 이름 추출의 정확도는 여전히 낮은 편입니다. 이름 추출 정확도를 높이기 위해서는 더 많은 이름 데이터로 HTR 모델을 재학습하고, 후처리 및 잘못된 이름 제거 방법이 필요합니다.
Stats
사망 증명서 데이터에는 총 77,352개의 스캔 파일이 있었습니다. 데이터 정리 후 68,520개의 스캔 파일이 남았습니다. 1869년 5월 1일을 기준으로 3열 양식에서 2열 양식으로 변경되었습니다. 1910년 데이터에는 60,000건 이상의 사망자 이름 정보가 포함된 Excel 파일이 있었습니다.
Quotes
"REE-HDSC (Recognizing Extracted Entities for the Historical Database Suriname Curaçao)는 자동 필기 텍스트 인식(HTR)으로 생성된 데이터에서 정보 추출(IE)의 최신 기술을 발전시키는 것을 목표로 하는 프로젝트입니다." "우리는 사망 증명서 분석 자동화 프로세스를 6가지 작업으로 나누는 것을 제안합니다."

Key Insights Distilled From

by Erik Tjong K... at arxiv.org 04-08-2024

https://arxiv.org/pdf/2401.02972.pdf
REE-HDSC

Deeper Inquiries

사망 증명서 데이터 외에 다른 역사 기록물에도 이 기술을 적용할 수 있을까요?

이 프로젝트에서 사용된 기술은 손글씨 텍스트를 자동으로 인식하고 엔티티를 추출하는 데 중점을 두고 있습니다. 이러한 기술은 사망 증명서 외에도 다양한 역사 기록물에 적용할 수 있습니다. 예를 들어, 수백 년 전의 편지, 일지, 문서, 계약서, 신문 기사 등과 같은 다양한 역사 문서를 처리하고 분석하는 데 사용할 수 있습니다. 이를 통해 수작업으로 처리해야 했던 방대한 양의 역사 문서를 빠르게 디지털화하고 정보를 추출할 수 있습니다. 또한, 이 기술은 역사 연구자들이 보다 쉽게 대규모 문서를 분석하고 연구할 수 있도록 도와줄 수 있습니다.

사망 증명서 데이터 외에 다른 역사 기록물에도 이 기술을 적용할 수 있을까요?

이름 인식 정확도를 높이기 위해 다른 방법은 없을까요? 이 프로젝트의 결과가 다른 분야의 역사 데이터 분석에 어떤 영향을 줄 수 있을까요?
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star