核心概念
將主題資訊整合到學術網路分析中,特別是引用關係中,可以顯著影響文章排名,揭示對學術社群結構更深入的見解。
摘要
論文概述
本研究論文探討了學術研究網路中關鍵元素(文章、研究人員和期刊)之間的關係,並提出了一種利用 HITS 演算法在網路中傳播主題資訊的新方法,以分析這些關係。
研究方法
- 利用命名實體識別和實體連結技術,從學術文章語料庫 CORD19 資料集中提取主題資訊。
- 採用混合 HITS 演算法,將主題資料納入引用框架中,計算文章的權重和排名。
- 分析不同參數設置(例如,作者、期刊、主題、文章網路的權重)對文章排名的影響。
主要發現
- 相較於僅基於引用次數的排名,整合主題資訊顯著影響了文章排名,揭示了學術社群結構的更深入見解。
- 與作者網路相比,主題網路對文章排名的影響更大。
- 將主題資訊納入計算後,文章排名與引用次數的相關性降低,顯示主題資訊提供了不同於單純引用計數的觀點。
研究結論
- 將主題資訊整合到學術網路分析中,特別是在引用關係中,可以更全面地理解學術社群的結構和資訊傳播模式。
- 未來研究可以進一步探討更複雜的主題網路結構,例如利用 UMLS 語義網路,以提升語義排名的準確性。
統計資料
研究使用了 CORD19 資料集,其中包含超過 100 萬篇與 COVID-19 和冠狀病毒相關的學術文章。
實驗分析了一個包含 19,981 篇文章、121,431 位作者、2,925 種期刊和 209,788 次引用的子圖。
研究採用了 Spearman 等級相關係數來評估不同參數設置下文章排名與引用次數之間的關係。
引述
"The topics are derived from a pipeline based on Named Entity Recognition and Knowledge Base of the relevant graph."
"Our motivation in this paper is to develop a way to provide the researchers with quantifiable information about the relationships between these elements so that it can be used for such purposes."
"Briefly, we propose a pipeline to create, analyze and store the research network which consists of authors, articles, named entities and relationships between them."