核心概念
本文介紹了一種名為 GraphRPM 的新框架,用於在大型屬性圖上自動查找和評估風險圖模式,以幫助檢測集群風險行為並減少人工檢查成本。
摘要
本文介紹了一種名為 GraphRPM 的工業級風險模式挖掘框架,用於處理大規模的屬性圖。該框架採用了一種新穎的邊緣參與圖同構網絡 (EGIN) 以及針對並行圖計算的優化操作,這些操作共同促成了計算複雜性和資源消耗的顯著降低。此外,所提出的評估指標有助於智能過濾有效的風險圖模式。在不同規模的真實數據集上進行的全面實驗評估證實了 GraphRPM 能够有效應對從大規模工業屬性圖中挖掘模式所固有的挑戰,從而突出了其在工業部署中的巨大價值。
引言
圖模式挖掘是數據挖掘和機器學習領域的一項關鍵任務,在社交網絡分析、金融欺詐檢測和計算生物信息學等各種工業和商業領域都有著廣泛的應用。以金融交易場景為例,欺詐者會試圖欺騙普通用戶並進行非法資金轉移。這些欺詐者的獨特行為模式(稱為“風險模式”)對於檢測欺詐活動和預防金融欺詐至關重要。與用於識別欺詐者的黑盒神經網絡模型相比,行業專家更傾向於總結這些風險模式,因為它們提供了對欺詐實體行為的更精細的洞察力,從而促進了更易於解釋的欺詐檢測方法。然而,專家手動描繪或構建這些模式是一個勞動密集型過程,需要大量的特定領域知識。因此,風險圖模式挖掘的自動化是一個值得探索的途徑。
現有的自動化圖模式挖掘算法受到兩個主要限制的阻礙:
處理屬性圖的挑戰。在許多現實世界的應用中,圖拓撲的簡單表示不足以準確描述風險場景。需要利用與節點或邊緣相關的高維屬性來對實體進行細微的表徵,這超出了僅限於或只能處理一維屬性的方法的能力。
可擴展性不足。工業環境中的圖數據通常非常龐大,涵蓋數百萬甚至數十億個節點。現有方法缺乏對計算優化策略的集成,而這些策略對於在如此大的工業規模上有效且高效地管理數據至關重要。這種能力的不足顯著削弱了這些方法在工業任務中應用的適用性,這些任務需要强大的數據處理和分析能力來處理所涉及數據的巨大數量和複雜性。
本文解決了大型交易屬性圖上的風險模式挖掘問題 (GraphRPM)。雖然我們的主要研究重點是金融欺詐檢測,但所提出的框架具有多功能性,可以擴展到許多工業應用,包括但不限於社交網絡環境中的分析。在工業環境中管理和處理大規模屬性圖的挑戰是一個非同小可的障礙,尤其是在數據挖掘領域。本研究的主要目標是建立一個强大且有效的方法框架,能够將不同的圖模式識別為判別實體,從而能够區分各種圖形結構並識別欺詐風險模式。
GraphRPM 引入了一種開創性的邊緣參與圖同構網絡 (EGIN),它解決了屬性圖模式中模糊匹配的挑戰,在計算複雜性和準確性之間取得了平衡。此外,本研究還實施了兩階段挖掘策略以及並行分佈式處理框架,以減少計算冗餘並提高效率。此外,我們還提出了一種模式風險評分作為評估指標,用於識別顯著的風險模式。對不同規模的各種真實數據集進行的全面評估證實了 GraphRPM 在解決大型工業屬性圖中的模式挖掘問題方面的熟練程度。
方法
GraphRPM 的總體工作流程,包括潛在子圖枚舉、兩階段模式挖掘和模式風險評估,其中基於 EGIN 的模式表示映射技術用於識別圖模式。由於工業屬性圖的規模龐大,因此需要將其分解為較小的自我圖,以便能够枚舉潛在的子圖模式。接下來是通過兩階段模式挖掘方法提取圖模式結果,該方法利用 EGIN 網絡中的節點和邊緣屬性。最終,通過徹底的風險評估過程識別和選擇表現出顯著獨特性的風險模式。
潛在子圖枚舉
為了獲得風險圖模式,我們首先需要枚舉每個起始節點周圍模式的潛在子圖。然而,工業屬性圖往往太大而無法直接在內存中處理,因此我們預先提取每個節點的 k 跳自我圖,然後枚舉自我圖內的潛在子圖。雖然節點數量仍然很大,但為了進一步提高效率,GraphRPM 使用我們分佈式內存圖智能計算系統執行枚舉,該系統可以處理圖計算和圖學習任務,並適應多種編程範例,包括廣泛認可的以頂點為中心的編程模型。每個工作程序都擁有一個輸入數據分區,並在多個線程上運行。
圖劃分完成後,系統繼續執行子圖枚舉算法。我們使用廣度優先搜索 (BFS) 策略來充分利用並行計算。枚舉從每個起始節點周圍開始,生成一系列僅包含單個邊緣的子圖,然後將這些子圖傳輸到它們各自的相鄰節點。在每次迭代之後,相鄰節點將被激活並遍歷它們的邊緣,嘗試將它們添加到子圖中。當子圖的大小達到閾值或沒有更多活動節點時,枚舉停止。顯然,BFS 由於維護大量的中間數據而面臨內存問題,我們引入了以下幾種優化方法。
無協調冗餘子圖刪除:由於不同的邊緣誘導順序,兩個不同的工作程序可能會到達同一個子圖,導致子圖被枚舉和表示兩次。為了解決這個問題,我們開發了一種無協調技術來避免冗餘計算並最大程度地減少通信成本。此方法通過排序對邊緣 ID 的順序施加限制,以形成每個子圖的表示,然後每個工作程序獨立地對表示應用散列技術,以決定哪個工作程序應計算子圖。
利用拓撲屬性分離結構進行多子圖優化:由於系統完全在內存中運行,並且子圖枚舉通常需要巨大的空間來維護中間數據,因此我們開發了一系列技術來最大程度地減少內存消耗。考慮到多個子圖將共享相同的節點或邊緣,我們提出了一種拓撲屬性分離結構,以最大程度地減少通信和內存使用。此外,對於已達到最大大小的子圖,我們會立即將其輸出以緩解內存限制,因為它不再需要擴展和傳播。為了結束每次迭代,我們清除每個工作程序的無用子圖,以防止重複傳播。請注意,我們的方法能够支持兩個節點之間的多邊緣以及節點和邊緣上的多屬性,而大多數現有的圖模式挖掘方法都不支持這些屬性和邊緣。
兩階段模式挖掘
模式表示映射:在獲得每個起始節點周圍的潛在子圖後,我們需要對所有結構的子集執行同構測試,以獲得最終的候選圖模式。然而,基於圖同構的精確匹配對於應用於大規模圖數據集來說計算量過大。為了規避這個問題,我們採用了圖同構網絡 (GIN),其效果已等同於 Weisfeiler-Lehman (WL) 同構測試,作為一種近似匹配技術來減少計算需求。然而,需要注意的是,GIN 在解決圖同構問題時會遇到限制,特別是在涉及具有高維屬性的節點或具有屬性的邊緣的情況下。因此,我們引入了一種稱為邊緣參與圖同構網絡 (EGIN) 的新架構,旨在將枚舉子圖的表示投影到高維表示空間中,專為具有高維屬性的圖同構任務而設計。首先,我們將邊緣信息(包括特徵和方向)集成到 GIN 的消息傳遞機制中。其次,我們可以使用第 K 個聚合層獲得子圖 g 的子圖嵌入 zg。簡單地使用 sum 作為 READOUT 無法區分高維屬性節點的差異。在這方面,我們還引入了 max、min 和 squeeze 的聚合操作,其中 squeeze 是指通過使用求和函數將多維節點的特徵壓縮為一維特徵向量。最後,將四個運算符生成的子圖嵌入連接起來,以構建當前子圖模式的複合表示。
兩階段挖掘:在模式表示映射方面,與節點和邊緣相關的高維特徵空間導致最終圖模式的大小呈指數級依賴於這些特徵的維數。在實踐中,圖模式通常表現出長尾分佈,其中大量低支持度模式會導致計算工作量膨脹,從而導致顯著的內存冗餘和效率低下。為了緩解這些計算問題,我們提出了一種兩階段模式挖掘方案,其中在第一階段僅使用節點的特徵來執行模式表示映射任務,然後修剪低支持度圖模式(根據反單調性原則,通過擴展低支持度圖模式邊緣上的屬性獲得的圖模式的支持度將更低)。隨後,在挖掘的第二階段,我們根據命中前 p% 支持度模式的子圖再次執行圖表示映射任務(默認情況下,p 設置為 10,以在效果和效率之間實現經驗上的良好折衷),其中引入了邊緣上的特徵以進行模式合併,從而產生了最終的風險候選模式集。實施此分層框架可以極大地簡化計算過程,將原始複雜度從 O(N × E) 降低到更易於管理的 O(N + E)。
模式風險評估
在金融安全的背景下,風險管理系統必須有效地區分交易網絡中的正常實體和異常實體。為此,系統應識別在異常節點中普遍存在(表明潛在風險)但在正常節點中明顯不存在或很少見的風險圖模式。此要求不同於傳統頻繁圖模式挖掘的目標,傳統頻繁圖模式挖掘通常旨在查找在整個圖中普遍存在的模式,而不會特別關注異常檢測。為了量化此類判別模式的有效性,我們引入了一種稱為模式風險評分 (Rs) 的新評估指標,專為金融風險分析任務而設計。此指標有助於評估模式在識別金融風險方面的可靠性和相關性。
對於給定的模式 Pi,假設在歷史數據中存在一組具有關聯二進制標籤 yvi ∈Y 的節點,其中每個標籤表示節點的狀態為正常 (yvi = 0) 或異常 (yvi = 1)。我們首先計算支持度計數 sPi y=1 和 sPi y=0,分別表示 Pi 在異常節點和正常節點中的支持度。
隨後,我們將模式的精度 (pre(Pi)) 計算為其在異常節點中的支持度与其在正常節點和異常節點中的總支持度的比率,形式化為:
pre(Pi) = sPi y=1 / (sPi y=1 + sPi y=0)
模式的召回率 (re(Pi)) 衡量為支持該模式的異常節點數相對於異常節點總數的比例,表示為:
re(Pi) = sPi y=1 / Σ yi=1 yi
為了綜合精度和召回率,反映模式的整體有效性,我們計算模式風險評分 Rs(Pi),類似於 F1 分數:
Rs(Pi) = 2 × pre(Pi) × re(Pi) / (pre(Pi) + re(Pi))
其中 Rs(Pi) 平衡了精度和召回率之間的權衡。 Rs 越高表示在區分金融風險方面更可靠的模式。模式風險評分量化了圖模式作為金融風險指標的可靠性。通過優先考慮具有高 Rs 分數的圖模式,金融機構可以專注於審查最有可能與欺詐活動相關的交易或節點,從而確保主動降低風險和遵守法規。它本質上是將網絡異常的抽象概念轉化為可操作的情報,從而可以保護金融運營。
部署
在本節中,我們將闡述 GraphRPM 在金融交易場景中的部署過程。部署分為三個不同的模塊:基於歷史數據的風險模式挖掘、基於已識別風險模式的在線交易風險控制和同樣基於已識別風險模式的業務案例分析。
風險模式挖掘模塊:此模塊通過使用 GraphRPM 方法從歷史交易數據中挖掘模式來運行。在模式風險評估之後,選擇頂級風險模式以用於下游任務。這些模式是通過分析歷史數據得出的,重點是識別與過去交易中的風險行為相關的關鍵結構。此外,考慮到風險控制所需的時間liness,我們每天更新這些模式。
在線交易風險控制模塊:選定的風險模式可以應用於在線風險控制。我們將這些模式編碼為特定領域語言 (DSL),並將其部署到工業風險控制平台。例如,圖 9 展示了一段 DSL 代碼片段,它描述了一個三角形結構。然後根據這些風險模式實時審查每筆正在進行的交易。如果當前交易与其相鄰圖數據中的風險模式完全匹配,則可以採取某些控制措施來限制交易的完成;否則,允許交易繼續進行。
業務案例分析模塊:利用風險模式進行回顧性分析,可以從過去的欺詐案例中提取關鍵圖結構。這有助於業務分析師剖析欺詐運營商使用的策略,從而提高分析過程的效率。通過將識別出的風險模式應用於過去的案例,我們可以深入了解欺詐者的作案手法,並有可能預測未來的欺詐計劃。
一個重要的討論點是交易風險的對抗性。一旦欺詐行為者由於增強的風險控制而無法再利用已識別的模式,他們可能會設計新的方法或渠道來實施欺詐,從而規避當前的風險控制模式。因此,定期更新風險模式至關重要。需要定期將風險模式挖掘模塊應用於新的數據樣本,以發現一組新的有效風險模式,用於正在進行的風險控制措施。
總結
大規模屬性圖上的模式挖掘一直是數據挖掘和機器學習領域的一項重大挑戰。在本研究中,我們介紹了 GraphRPM,這是一個創新框架,它集成了由圖神經網絡提供支持的子圖同構算法以及針對計算效率進行了優化的架構。 GraphRPM 旨在在大型屬性圖上自動查找和評估風險圖模式,幫助檢測集群風險行為並減少人工檢查成本,並已在各種業務場景中投入生產使用超過一年。通過對三個不同規模的不同數據集進行全面實驗,我們確定 GraphRPM 有效地解決了工業環境中普遍存在的大規模屬性圖中的模式挖掘挑戰,突出了其在工業應用中的巨大價值。
統計資料
GraphRPM 在大型數據集 M3 上的風險評分性能分別提高了 0.49 和 0.38。
通過使用子圖枚舉優化方案和兩階段挖掘框架,GraphRPM 在大型數據集上的運行時間分別減少了 3 倍和 2 倍。