Core Concepts
ChroniclingAmericaQAは、1800年から1920年にかけての120年間にわたる歴史的アメリカ新聞ページを基に作成された大規模な質問応答データセットである。OCRテキストの品質の低さや、過去の言語の複雑さなど、歴史的文書特有の課題に取り組むことができる。
Abstract
本研究では、歴史的アメリカ新聞ページのデジタルコレクション「Chronicling America」を活用し、質問応答(QA)データセット「ChroniclingAmericaQA」を構築した。
データ収集では、1800年から1920年の120年間にわたり、全53の州から無作為に新聞ページを選択した。OCRテキストの品質が低いという課題に対処するため、GPT 3.5モデルを使ってOCRテキストを修正した。
質問生成では、T5モデルを活用し、自動的に485,000問以上の質問-答え対を生成した。生成された質問-答え対には、文法的な誤りの修正、時間表現の正規化、質問-答えの型の整合性確認などの前処理を行った。
最終的に、ChroniclingAmericaQAデータセットは、訓練セット439,302問、開発セット24,111問、テストセット24,084問から構成される。データセットの分析では、BERTやRoBERTa、T5などの言語モデルを用いて評価を行った。その結果、OCRテキストの品質が低下すると、モデルの性能が大幅に低下することが明らかになった。一方で、データセット固有の知識を取り入れることで、モデルの性能が大幅に向上することが示された。
ChroniclingAmericaQAデータセットは、歴史的文書を対象とした質問応答研究の新たな基準を提示するものであり、OCRエラーに頑健なQAモデルの開発や、歴史的文書の理解を深める上で有用なリソースとなる。
Stats
新聞ページ1ページあたり平均54.80問の質問が生成された
開発セットと試験セットでは、1ページあたり平均4.07問、4.08問の質問が生成された
答えの平均長は2.01単語