DocGenome是一個開放的大規模科學文獻基準測試集,主要有以下特點:
我們設計了DocParser自動標註管道,可以從大量未標註的arXiv論文中提取標註信息。利用DocParser,我們構建了包含500K篇文獻的DocGenome數據集。
我們在DocGenome基準測試集上進行了大量實驗,評估了多個主流多模態大型語言模型的性能,結果表明DocGenome可以顯著提升現有基線模型的文獻理解能力。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Renqiu Xia, ... kl. arxiv.org 09-12-2024
https://arxiv.org/pdf/2406.11633.pdfDybere Forespørgsler