核心概念
本文提出了一種新的知識庫補全方法 DELE,它利用演繹推理和改進的負採樣技術來增強 EL++ 本體嵌入的效能。
文獻資訊: Mashkova, O., Zhapa-Camacho, F., & Hoehndorf, R. (2024). DELE: Deductive EL++ Embeddings for Knowledge Base Completion. Neurosymbolic Artificial Intelligence, 0(0), 1–15.
研究目標: 本研究旨在解決現有 EL++ 本體嵌入方法的局限性,這些方法無法區分不可證和可證偽的陳述,並且沒有充分利用本體的演繹閉包。
方法: 作者提出了一種名為 DELE 的新方法,該方法結合了以下改進:
**納入所有正規形式的負樣本的損失函數:**這確保模型在訓練期間考慮到所有類型的負樣本,從而提高準確性。
**用於計算 EL++ 理論演繹閉包的快速近似算法:**這允許在訓練期間進行更有效的負採樣,從而產生更精確的嵌入。
**考慮演繹閉包的知識庫補全評估方法:**這確保評估過程考慮到隱含的知識,從而提供更真實的效能衡量標準。
主要發現: 實驗結果表明,與現有的 EL++ 本體嵌入方法相比,DELE 在知識庫補全任務(特別是蛋白質-蛋白質交互作用預測和蛋白質功能預測)方面取得了顯著的改進。
主要結論: DELE 通過利用演繹推理和改進的負採樣技術,為 EL++ 本體嵌入提供了一種更精確和有效的知識庫補全方法。
意義: 本研究通過解決現有方法的局限性,為知識庫補全領域做出了貢獻。所提出的方法有可能改進各種下游應用,例如藥物發現和疾病診斷。
局限性和未來研究: 未來的研究方向包括探索更複雜的描述邏輯語言的嵌入方法,以及將 DELE 應用於其他知識庫補全任務。
統計資料
ELEmbeddings、ELBE 和 Box2EL 模型在 PPI 酵母網絡數據集上進行了測試,該數據集包含從 STRING 數據庫版本 11.5 和 2021 年 10 月 20 日發布的 GO 版本中提取的蛋白質-蛋白質交互作用和蛋白質功能註釋。
Food Ontology 數據集用於評估子類預測任務,訓練數據集僅限於 EL 片段,並使用 jcel 推理器進行正規化。
所有模型都使用 PyTorch 訓練了 2,000 個 epoch(對於 STRING 和 GO 數據集)或 800 個 epoch(對於 Food Ontology 數據集),批量大小為 32,768。
使用 Adam 優化器和 ReduceLROnPlateau 調度器進行優化,並採用提前停止策略。