Core Concepts
역사적 문서에서 정보 추출 프로세스의 성능을 평가하기 위해 읽기 순서에 독립적인 지표를 제안한다.
Abstract
이 논문에서는 역사적 문서에서 정보 추출 프로세스를 평가하기 위한 새로운 지표를 제안한다. 기존의 평가 지표들은 읽기 순서에 민감하여 복잡한 문서에서 편향된 결과를 초래할 수 있다.
제안된 지표는 다음과 같다:
읽기 순서 독립적 Entity Character Error Rate (OIECER) 및 Entity Word Error Rate (OIEWER): 개체 수준에서 문자 및 단어 오류율을 측정한다.
읽기 순서 독립적 Soft-aligned Entity Precision, Recall 및 F1-Score (OINerval): 개체 수준에서 정밀도, 재현율 및 F1-점수를 측정한다.
단어 가방 기반 지표: btWER, bt-P/R/F1, beER, be-P/R/F1
이 지표들은 4개의 공개 데이터셋과 실제 사례에 적용되었으며, 기존 지표와 비교하여 읽기 순서 오류에 강인한 것으로 나타났다. 분석 결과, OIECER, OIEWER 및 OINerval이 가장 효과적인 지표로 식별되었다.
Stats
역사적 문서에서 정보 추출 모델의 Character Error Rate (CER)은 0.4%에서 80.8%까지 다양하게 나타났다.
역사적 문서에서 정보 추출 모델의 Word Error Rate (WER)은 1.5%에서 106.1%까지 다양하게 나타났다.
역사적 문서에서 정보 추출 모델의 OIEWER 점수는 4.7%에서 95.1%까지 다양하게 나타났다.
역사적 문서에서 정보 추출 모델의 OINerval-F1 점수는 27.7%에서 96.7%까지 다양하게 나타났다.
Quotes
"Information Extraction processes in handwritten documents tend to rely on obtaining an automatic transcription and performing Named Entity Recognition (NER) over such transcription."
"For this reason, in publicly available datasets, the performance of the systems is usually evaluated with metrics particular to each dataset. Moreover, most of the metrics employed are sensitive to reading order errors."
"Therefore, they do not reflect the expected final application of the system and introduce biases in more complex documents."