核心概念
本論文では、企業の重要情報抽出に向けた5つの新しいデータセットを紹介する。これらのデータセットには、OCRの品質低下や長文書の疎な注釈、複雑なテーブル構造など、実世界の課題が反映されている。
要約
本論文では、企業の重要情報抽出に向けた5つの新しいデータセットを紹介している。
SEC S1 Filings
322件のS1ファイリングを含む
投資分析に必要な情報(リスク要因、証券の詳細など)を抽出するためのラベルが付与されている
長文書で注釈が疎なため、実用的な課題が反映されている
US Non-Disclosure Agreements (NDA)
439件の機密保持契約を含む
契約当事者、発効日、管轄地などの情報を抽出するためのラベルが付与されている
注釈が疎なため、実用的な課題が反映されている
UK Charity Reports
538件の英国の慈善団体の年次報告書を含む
団体名、受託者名、事業内容などの情報を抽出するためのラベルが付与されている
書式が大きく異なるため、実用的な課題が反映されている
FCC Invoices
370件の政治広告の請求書を含む
広告主、代理店、請求明細(期間、料金等)の情報を抽出するためのラベルが付与されている
テーブル構造が複雑で、読み取り順序の課題が反映されている
Resource Contracts
198件の資源開発契約を含む
契約当事者、契約期間、環境保護条項などの情報を抽出するためのラベルが付与されている
書式が大きく異なり、OCRの品質低下の課題が反映されている
これらのデータセットは、企業の重要情報抽出に関する実用的な課題に取り組むための基準となることが期待される。
統計
長文書で注釈が疎なため、クラスの不均衡が大きい。例えば、S1ファイリングデータセットでは、ラベルのない部分が全体の50%を占める。
複雑なテーブル構造を持つデータ(FCC請求書)では、ラベルのない部分が全体の0%を占める。