แนวคิดหลัก
針對缺乏顯性特徵關係模式的科學數據,本文提出了一種通用的特徵提取模組 EAPCR,其透過暴露所有可能的特徵關係模式並加速組合採樣,有效識別具有強交互作用的特徵組合,提升深度學習模型在科學應用中的性能。
研究背景
在非圖像醫學診斷、系統異常檢測、無機催化效率預測等科學應用中,傳統機器學習技術(如決策樹及其變體)表現出色,而深度學習技術卻難以匹敵。
研究問題
深度學習技術在科學應用中表現不佳的主要原因是這些領域的數據與圖像、文本和圖譜等傳統任務的數據存在顯著差異。科學數據通常缺乏顯性特徵關係模式(FRPs),例如空間關係、順序依賴關係或已知連接,而這些關係模式對於深度學習模型的有效特徵提取至關重要。
研究方法
為了解決這個問題,本文提出了一種名為 EAPCR 的新型特徵提取模組,專為缺乏顯性 FRPs 的數據而設計。EAPCR 採用以下兩種策略:
暴露所有可能的特徵關係: 利用嵌入和雙線性注意力機制構建相關矩陣,以表示所有潛在的特徵關係模式。
高效地對特徵關係進行採樣: 採用置換卷積神經網絡(CNN)對相關矩陣進行採樣,通過設計特殊的置換矩陣,將原本距離較遠的矩陣元素拉近,而將原本相鄰的元素推遠,從而有效地採樣到具有強交互作用的特徵組合。
實驗結果
在多個真實世界的科學任務(包括非圖像醫學診斷、無機催化效率預測和系統異常檢測)中,EAPCR 的性能均優於傳統方法,包括最先進的基於決策樹的方法。
為進一步評估 EAPCR 的穩健性,研究人員還創建了一個缺乏顯性 FRPs 的合成數據集。實驗結果表明,EAPCR 在該數據集上的表現優於 CNN、GCN、MLP、RF、Transformer 和 KAN 等傳統深度學習模型。
研究結論
EAPCR 作為一種針對缺乏顯性 FRPs 的數據而設計的通用特徵提取器,有效地解決了深度學習模型在科學應用中面臨的一個關鍵挑戰。研究結果表明,EAPCR 具有穩健性和有效性,為提升該領域的數據分析能力鋪平了道路。
สถิติ
EAPCR 在 UCI 克利夫蘭心臟病數據集上達到了 93% 的準確率,優於決策樹(70%)、KNN(78%)、邏輯迴歸(83%)、樸素貝葉斯(83%)和支持向量機(85%)。
在 TiO2 光催化劑數據集上,EAPCR 的 R2 指標為 0.937,優於 LightGBM(0.928)。
在基於傳感器數據的系統異常檢測任務中,EAPCR 的準確率為 89.42%,優於隨機森林(87.83%)、邏輯迴歸(87.83%)、支持向量機(87.83%)和梯度提升(88.89%)。
在沒有顯性 FRPs 的合成數據集上,EAPCR 的準確率達到 94.5%,而 CNN、GCN 和 RF 僅略微超過 MLP 的性能。