核心概念
本文提出了一種名為「基於記憶的路由」(RbM)的新型知識蒸餾技術,可以將圖神經網路(GNN)的知識有效地轉移到一種稱為專家混合模型(MoE)的學生模型中,從而在保持低延遲推理的同時,在節點分類任務上實現與 GNN 相當的準確率。
參考資訊: Rumiantsev, Pavel, and Mark Coates. "Graph Knowledge Distillation to Mixture of Experts." Transactions on Machine Learning Research (2024).
研究目標: 本研究旨在解決將圖神經網路 (GNN) 的知識蒸餾到多層感知器 (MLP) 時,現有方法性能不一致的問題,特別是在處理大型圖數據時,GNN 的鄰域處理操作會導致延遲。
方法: 作者提出了一種名為「基於記憶的路由」(RbM) 的新型學生模型架構,這是一種專家混合模型 (MoE),其設計旨在強化專家專業化。RbM 模型不依赖于鄰域聚合,而是使用預先計算的結構信息(例如位置編碼)和從訓練好的教師 GNN 中提取的軟標籤來訓練學生模型。為了鼓勵專家專業化,該方法採用了一種新穎的路由機制,將輸入樣本引導到最接近的專家,並使用餘弦相似性和多個專家之間的插值。此外,該研究還引入了一些損失函數,以促進更好的表徵聚類和專家專業化,包括向量量化風格的承諾損失、自我相似性損失和負載平衡損失。
主要發現: 實驗結果表明,與參數膨脹的 MLP、MLP 集合或普通 MoE 模型相比,RbM 模型可以更有效地利用額外的參數,並且在節點分類準確性方面始終優於基線方法,尤其是在中型和大型數據集上。
主要結論: RbM 模型提供了一種有效且高效的方法,可以將 GNN 的知識蒸餾到 MoE 模型中,從而在保持低延遲推理的同時實現與 GNN 相當的準確率。
意義: 這項研究對於需要低延遲推理的大規模圖學習應用具有重要意義,例如在資源受限的設備或實時系統中。
局限性和未來研究: 未來的研究方向包括探索更先進的路由機制和損失函數,以進一步提高 RbM 模型的性能,以及研究 RbM 模型在其他圖學習任務中的應用,例如鏈路預測和圖分類。
統計資料
本文使用了九個真實世界的數據集進行實驗,分為大型、中型和小型三類。
在中型數據集上,RbM 的表現優於所有基線模型。
在大型數據集上,RbM 的表現僅次於 CoHOp,但 CoHOp 採用了計算量較大的標籤傳播方法。
與基線模型相比,RbM 能更有效地利用額外的參數,即使在參數數量增加八倍的情況下也是如此。
移除任何一個損失函數組件都會降低 RbM 的性能,表明所有三個損失項都有助於模型的性能。
在標籤數據較多的數據集上,結合 CoHOp 的標籤傳播信息可以提高 RbM 的性能。