本研究提出了兩個開源工具,用於檢測論文中資料集的使用情況。第一個是基於OpenAlex和全文分析的管線,第二個是用於手動標註資料集存在的PDF註釋軟件。
研究團隊應用這兩種工具分析了MICCAI和MIDL會議論文中20個常用醫學資料集的使用情況。結果顯示,論文集中使用少數幾個資料集,並且存在不同的引用實踐,使自動跟蹤資料集使用情況變得困難。
研究發現,即使資料集被引用,也不一定意味著實際使用,而有些使用的資料集卻沒有被引用。這突出了缺乏標準來指示資料集的使用情況,從而可以輕易地跟蹤。
研究提出了一些建議,如在論文中增加"資料可用性"部分,以促進更系統的方式來確定資料集的使用情況。這將有助於提高對資料集使用的認知,並減少對特定任務的過度集中。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問