核心概念
DocGenome是一個結構化的科學文獻基準測試集,包含500K篇文獻,涵蓋13種組件單元和6種邏輯關係,用於訓練和評估多模態大型語言模型在科學文獻理解任務上的能力。
摘要
DocGenome是一個開放的大規模科學文獻基準測試集,主要有以下特點:
- 完整性: 它是第一個同時包含13種佈局屬性和其LATEX源碼的數據集。
- 邏輯性: 它提供了6種不同實體之間的邏輯關係。
- 多樣性: 它涵蓋了文檔分類、視覺定位、文檔佈局檢測、文檔轉換、單頁和多頁問答等7種文檔導向任務。
- 正確性: 它經過專業團隊的嚴格質量控制。
我們設計了DocParser自動標註管道,可以從大量未標註的arXiv論文中提取標註信息。利用DocParser,我們構建了包含500K篇文獻的DocGenome數據集。
我們在DocGenome基準測試集上進行了大量實驗,評估了多個主流多模態大型語言模型的性能,結果表明DocGenome可以顯著提升現有基線模型的文獻理解能力。
統計資料
科學文獻的平均頁數為13頁,最長的文獻達到50頁。
整個數據集包含74.5M個組件單元和68.5M個關係標籤。