核心概念
現有的歸納式知識圖譜補全基準數據集存在一個嚴重的缺陷:數據集建構方式無意間創造了一個捷徑,使得僅依賴節點間最短路徑距離的簡單方法也能取得與當前最佳方法相當的效能,而忽略了知識圖譜中重要的關係資訊。
摘要
論文概述
本研究論文探討了歸納式知識圖譜補全(KGC)領域中基準數據集建構的關鍵問題。作者指出,現有的數據集建構方法存在一個嚴重的缺陷,即無意間創造了一個捷徑,使得僅依賴節點間最短路徑距離的簡單方法,例如個人化PageRank(PPR),也能在多數數據集上取得與當前最佳方法相當的效能。
研究發現
- 作者發現,在現有的歸納式KGC數據集中,使用PPR這種忽略關係資訊的非學習型方法,也能取得與監督式學習方法相當的效能。
- 經過深入分析,作者發現PPR之所以能取得如此高的效能,是因為現有的數據集建構方法導致正樣本中的實體間最短路徑距離遠小於負樣本中的實體間距離,從而產生了一個可被PPR利用的捷徑。
解決方案
為了解決這個問題,作者提出了一種基於圖論分割的新數據集建構策略。該策略旨在從原始圖譜中抽樣出更具代表性的子圖,以保留原始圖譜的結構特性,並減輕PPR捷徑的影響。
實驗結果
作者使用新方法建構了新的歸納式KGC基準數據集,並在這些數據集上評估了多種主流方法的效能。實驗結果顯示,與舊數據集相比,大多數方法在新數據集上的效能都有所下降,這表明新數據集更具挑戰性,也更能反映出不同方法在歸納式KGC任務上的真實能力。
研究貢獻
- 指出現有歸納式KGC基準數據集存在的捷徑問題。
- 提出基於圖論分割的新數據集建構策略。
- 建構新的歸納式KGC基準數據集,並驗證其有效性。
研究意義
本研究揭示了現有歸納式KGC基準數據集的缺陷,並提出了一種有效的改進策略。這將有助於推動歸納式KGC領域的發展,促進更 robust 和可靠的模型的研發。
統計資料
在現有的歸納式KGC數據集中,使用PPR方法的Hits@10指標平均僅比當前最佳方法低25-29%。
在某些數據集上,例如WN或ILPC的歸納式分割,PPR的效能甚至接近或超過了監督式學習方法。
與原始的轉導式數據集相比,PPR在歸納式數據集上的效能提升顯著,例如在FB15k-237數據集上,PPR的Hits@10指標從2.7%提升至平均42.7%,增幅高達1481%。
研究發現,PPR的效能與數據集中正樣本和負樣本之間的平均最短路徑距離差(∆SPD)高度相關,Pearson相關係數高達0.87。
引述
"We observe that on almost all inductive datasets, we can achieve competitive performance by using the Personalized PageRank [12] (PPR) score to perform inference."
"These findings are problematic as PPR has no basis in literature as a heuristic for KGC, since it completely overlooks the relational aspect of KGs."
"This suggests the potential existence of a shortcut that allows a simple non-learnable method like PPR to achieve high performance on almost all inductive datasets."
"This also brings into question how successful most methods are in inductive reasoning, as a large portion of their performance may be due to this shortcut."