Centrala begrepp
本文提出了一種新的指標「類別粒度」來評估知識圖譜的品質,該指標衡量知識圖譜本體定義的精細程度以及這些定義如何反映在實例數據中,並探討了類別粒度對圖嵌入和知識庫問答等下游任務的影響。
Sammanfattning
知識圖譜中的類別粒度:評估真實世界呈現的豐富程度
這篇研究論文提出了「類別粒度」的概念,作為評估知識圖譜品質的新指標。類別粒度指的是知識圖譜本體中類別定義的精細程度,以及這些定義如何準確地反映在實際的知識圖譜數據中。
論文貢獻:
- 提出一個同時考慮本體和知識圖譜實例來衡量知識圖譜粒度的指標。
- 首次提供連結開放數據源中粒度級別的比較結果。
- 進行實驗以評估粒度對特定任務的影響。
主要內容:
-
知識圖譜品質的重要性: 知識圖譜的效用取決於其品質。一個定義良好且粒度高的本體可以提高知識圖譜在各種應用中的效能,例如資訊檢索、問答系統和人工智慧。
-
類別粒度的定義: 類別粒度透過「具有獨特謂詞的實例比例平均值」(IDPPA)來計算。IDPPA 衡量特定類別中實例使用該類別獨特謂詞的程度。獨特謂詞是指僅存在於特定類別中,而不在其父類別或兄弟類別中定義的謂詞。
-
類別粒度的影響:
- 圖嵌入: 實驗結果顯示,隨著類別粒度的增加,屬於新增類別的實體會在嵌入空間中更緊密地聚集在一起。
- 知識圖譜推理和問答: 更精細的類別粒度允許建立更精確的推理規則,從而提高知識圖譜推理和問答的效能。
- 命名實體消歧: 高類別粒度可以透過提供更豐富的實體屬性資訊來幫助消歧具有多重含義的詞語。
-
連結開放數據 (LOD) 的類別粒度: 研究比較了 Freebase、YAGO 和 DBpedia 的類別粒度,發現 Freebase 具有最高的類別粒度,其次是 YAGO 和 DBpedia。
結論:
類別粒度是評估知識圖譜品質的一個重要指標,可以提供有關知識圖譜結構豐富性和資訊組織程度的寶貴見解。 然而,更高的類別粒度並不總是意味著更好的品質,因為在某些情況下,低粒度的本體可能更靈活,並且更適合處理未來的數據增長。
Statistik
DBpedia 有 472 個類別、33,457 個謂詞和 60,451,631 個三元組,類別粒度為 0.0904。
YAGO 有 111 個類別、133 個謂詞和 461,321,787 個三元組,類別粒度為 0.1708。
Freebase 有 7,425 個類別、769,935 個謂詞和 961,192,099 個三元組,類別粒度為 0.3964。
Citat
"in general, richly populated ontologies, with higher depth and breadth variance are more likely to provide reliable semantic content"