DocGenomeは、以下の4つの特徴を持つ大規模科学文書ベンチマークデータセットである:
完全性: 13種類のレイアウト属性と論理関係を含む、科学文書の全モダリティを構造化したデータセットとして初めて構築された。
論理性: 文書内の異なるエンティティ間の6種類の論理関係を提供する。
多様性: 文書分類、視覚的グラウンディング、レイアウト検出、文書変換、単一ページおよび複数ページのQAなど、多様な文書指向タスクをカバーする。
正確性: 専門チームによる厳格な品質管理を経て構築された。
DocGenomeを用いた実験では、既存の大規模言語モデルの科学文書理解能力を客観的に評価し、DocGenomeの有効性を実証した。
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Renqiu Xia, ... ที่ arxiv.org 09-12-2024
https://arxiv.org/pdf/2406.11633.pdfสอบถามเพิ่มเติม