Core Concepts
手書き文字認識技術を用いて、歴史的な死亡証明書から人名、日付、その他の重要な情報を自動抽出する方法を開発する。
Abstract
本プロジェクトは、手書き文字認識(HTR)ソフトウェアから自動的に抽出された固有表現の品質を改善するための取り組みを説明している。6段階のデータ処理パイプラインを提示し、19世紀および20世紀のキュラソー島の死亡証明書を処理して検証した。
データ準備では、データ分析と清掃を行い、3つの主要な証明書フォーマットを特定した。パイプラインの各ステップ(レイアウト分析、ベースライン検出、手書き文字検出、エンティティ認識、名称補正、エンティティリンク)について説明している。
エンティティ認識の評価では、正規表現とChatGPTを比較した。正規表現では死亡者名の正解率が17%、死亡日の正解率が37%だったのに対し、ChatGPTは死亡者名83%、死亡日90%と大幅に高い精度を示した。
名称認識精度の向上策として、HTRモデルの再学習、ポストプロセッシング、不正な名称の除去などを検討した。Loghiソフトウェアの評価も行ったが、Transkribus に劣る結果だった。今後の課題として、より大規模なHTRトレーニングデータの準備、行順序の修正、人手との協調処理の検討などが挙げられる。
Stats
死亡証明書の自動抽出では、正規表現による死亡者名の正解率は17%、死亡日の正解率は37%だった。
ChatGPTによる抽出では、死亡者名の正解率が83%、死亡日の正解率が90%と大幅に高かった。
Quotes
"手書き文字認識技術の質が抽出エンティティの質に大きな影響を及ぼす。"
"ChatGPTは正規表現よりも死亡者名と死亡日の抽出精度が大幅に高かった。"