toplogo
Sign In

死亡証明書からの抽出エンティティの認識 - 歴史的データベース・スリナム・カリブ海プロジェクト


Core Concepts
手書き文字認識技術を用いて、歴史的な死亡証明書から人名、日付、その他の重要な情報を自動抽出する方法を開発する。
Abstract
本プロジェクトは、手書き文字認識(HTR)ソフトウェアから自動的に抽出された固有表現の品質を改善するための取り組みを説明している。6段階のデータ処理パイプラインを提示し、19世紀および20世紀のキュラソー島の死亡証明書を処理して検証した。 データ準備では、データ分析と清掃を行い、3つの主要な証明書フォーマットを特定した。パイプラインの各ステップ(レイアウト分析、ベースライン検出、手書き文字検出、エンティティ認識、名称補正、エンティティリンク)について説明している。 エンティティ認識の評価では、正規表現とChatGPTを比較した。正規表現では死亡者名の正解率が17%、死亡日の正解率が37%だったのに対し、ChatGPTは死亡者名83%、死亡日90%と大幅に高い精度を示した。 名称認識精度の向上策として、HTRモデルの再学習、ポストプロセッシング、不正な名称の除去などを検討した。Loghiソフトウェアの評価も行ったが、Transkribus に劣る結果だった。今後の課題として、より大規模なHTRトレーニングデータの準備、行順序の修正、人手との協調処理の検討などが挙げられる。
Stats
死亡証明書の自動抽出では、正規表現による死亡者名の正解率は17%、死亡日の正解率は37%だった。 ChatGPTによる抽出では、死亡者名の正解率が83%、死亡日の正解率が90%と大幅に高かった。
Quotes
"手書き文字認識技術の質が抽出エンティティの質に大きな影響を及ぼす。" "ChatGPTは正規表現よりも死亡者名と死亡日の抽出精度が大幅に高かった。"

Key Insights Distilled From

by Erik Tjong K... at arxiv.org 04-08-2024

https://arxiv.org/pdf/2401.02972.pdf
REE-HDSC

Deeper Inquiries

手書き文字認識技術の精度向上には、どのようなアプローチが考えられるか。

手書き文字認識技術の精度向上には、以下のアプローチが考えられます。 追加のトレーニングデータの提供: より多くのトレーニングデータを使用して、モデルを改善することが重要です。特に、名前の認識精度を向上させるために、追加の名前データをトレーニングデータに組み込むことが有効です。 ポストプロセス処理の実施: 手書き文字認識の出力に対して、ポストプロセス処理を行うことで、誤った文字を修正したり、不明な単語を適切な単語に置き換えたりすることができます。 誤り検出モデルの導入: 誤り検出モデルを導入して、認識された文字列の中から誤りを検出し、修正することで精度を向上させることができます。 言語モデルの改善: 言語モデルをより適切なものに改善することで、認識された文字列の選択肢をより正確にすることができます。 これらのアプローチを組み合わせることで、手書き文字認識技術の精度を効果的に向上させることが可能です。
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star