核心概念
本文提出了一種基於時間序列數據分析的案例 ID 檢測新算法,該算法特別適用於缺乏明確案例標識符的傳感器數據,並在礦業應用案例中得到驗證。
參考文獻:
Brzychczy, E., Pełech-Pilichowski, T., & Dworakowski, Z. (2023). Case ID detection based on time series data -- the mining use case. Paper presented at the undefined.
研究目標:
本研究旨在開發一種基於時間序列模式的案例 ID 檢測算法,以解決原始傳感器數據中缺乏明確案例標識符的問題,特別是在循環運行的工業流程中。
方法:
研究人員開發了一種基於規則的算法,用於從時間序列數據中識別模式。該算法基於對所選變量的短期平均值變化進行分析,以檢測顯著變化,從而識別案例 ID。
主要發現:
該算法在包含異常值的原始數據集和經過清理的數據集上均成功識別了案例 ID,F1 分數分別為 96.8% 和 97%。
該算法在製造業數據集上的評估也顯示出良好的結果,F1 分數達到 92.6%。
主要結論:
基於時間序列模式分析的算法可以有效地用於從傳感器數據中識別案例 ID,即使數據中存在異常值。
該算法適用於其他物聯網應用案例,其中案例 ID 與傳感器數據中記錄的重複行為相關。
意義:
本研究為基於傳感器數據的流程挖掘提供了新的解決方案,特別是在缺乏明確案例標識符的情況下。
局限性和未來研究方向:
該算法對變量值的突然變化很敏感,未來的工作將側重於開發自適應版本的算法。
未來還需要在更多樣化的數據集上對算法進行評估,以進一步驗證其有效性和泛化能力。
統計資料
在原始數據集中,專家標記了 56 個挖掘機循環和 33 個異常數據標籤(總共 89 個循環)。
該算法在原始數據集(包含 352668 個樣本,每秒讀數)中檢測到 93 個模式(挖掘機循環),而在清理後的數據中檢測到 62 個模式。
與原始數據集相比,清理後的數據集(不包含異常值)的評估指標差異不大,因為原始數據集中標記的異常值數量相對較少(10,591 個)。
與原始數據集的啟發式方法相比,該算法在精確率(提高了 2 個百分點)、召回率(提高了 17.7 個百分點)和 F1 分數(提高了 10.8 個百分點)方面均有所提高;對於清理後的數據集,則分別提高了 2.2 個百分點、17.7 個百分點和 11 個百分點。