DocGenome是一個開放的大規模科學文獻基準測試集,主要有以下特點:
我們設計了DocParser自動標註管道,可以從大量未標註的arXiv論文中提取標註信息。利用DocParser,我們構建了包含500K篇文獻的DocGenome數據集。
我們在DocGenome基準測試集上進行了大量實驗,評估了多個主流多模態大型語言模型的性能,結果表明DocGenome可以顯著提升現有基線模型的文獻理解能力。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы