DocGenomeは、以下の4つの特徴を持つ大規模科学文書ベンチマークデータセットである:
完全性: 13種類のレイアウト属性と論理関係を含む、科学文書の全モダリティを構造化したデータセットとして初めて構築された。
論理性: 文書内の異なるエンティティ間の6種類の論理関係を提供する。
多様性: 文書分類、視覚的グラウンディング、レイアウト検出、文書変換、単一ページおよび複数ページのQAなど、多様な文書指向タスクをカバーする。
正確性: 専門チームによる厳格な品質管理を経て構築された。
DocGenomeを用いた実験では、既存の大規模言語モデルの科学文書理解能力を客観的に評価し、DocGenomeの有効性を実証した。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Renqiu Xia, ... klokken arxiv.org 09-12-2024
https://arxiv.org/pdf/2406.11633.pdfDypere Spørsmål