核心概念
DocGenomeは、153の学術分野にわたる500Kの科学文書を自動アノテーションし、文書分類、視覚的グラウンディング、レイアウト検出、文書変換、単一ページおよび複数ページのQAなど、多様なタスクをカバーする大規模ベンチマークデータセットである。これにより、マルチモーダル大規模言語モデルの科学文書理解能力を包括的に評価できる。
摘要
DocGenomeは、以下の4つの特徴を持つ大規模科学文書ベンチマークデータセットである:
-
完全性: 13種類のレイアウト属性と論理関係を含む、科学文書の全モダリティを構造化したデータセットとして初めて構築された。
-
論理性: 文書内の異なるエンティティ間の6種類の論理関係を提供する。
-
多様性: 文書分類、視覚的グラウンディング、レイアウト検出、文書変換、単一ページおよび複数ページのQAなど、多様な文書指向タスクをカバーする。
-
正確性: 専門チームによる厳格な品質管理を経て構築された。
DocGenomeを用いた実験では、既存の大規模言語モデルの科学文書理解能力を客観的に評価し、DocGenomeの有効性を実証した。
統計資料
科学文書の平均ページ数は13ページ、最長は50ページ
合計500Kの文書、74.5M個のコンポーネントユニット、68.5M個の関係ラベルがアノテーションされている
28.56%のデータがTier-1品質、61.30%がTier-2品質、10.14%がTier-3品質
引述
"DocGenomeは、153の学術分野にわたる500Kの科学文書を自動アノテーションし、多様なタスクをカバーする大規模ベンチマークデータセットである。"
"DocGenomeには、文書内の異なるエンティティ間の6種類の論理関係が提供されている。"
"DocGenomeを用いた実験では、既存の大規模言語モデルの科学文書理解能力を客観的に評価し、DocGenomeの有効性を実証した。"