核心概念
VQShape 模型通過將時間序列分解為抽象形狀和屬性(偏移、規模、開始時間和持續時間),並利用向量量化學習可泛化和描述性的抽象形狀碼本,從而實現可解釋且可泛化的時間序列表示學習和分類。
摘要
論文概述
本論文提出了一種名為 VQShape 的新型自監督預訓練模型,用於時間序列分析,旨在解決現有預訓練模型和可解釋模型在時間序列分析中的局限性。
研究背景
時間序列數據存在於各個領域,但由於其採樣率、長度、幅度、頻率和噪聲水平的多樣性,跨多個領域對其進行建模一直是一項挑戰。現有的機器學習方法大多只關注單一數據集或單一領域。近年來,受自然語言處理和計算機視覺領域大型預訓練模型成功的啟發,人們提出了各種方法來構建時間序列數據的統一視圖和特徵空間。然而,大多數模型仍然是黑盒子,無法提供人類可理解的表示。
VQShape 模型
VQShape 模型包含一個時間序列編碼器、一個時間序列解碼器、一個潛在空間碼本、一個形狀解碼器、一個屬性編碼器和一個屬性解碼器。該模型首先將時間序列子序列分解為一組屬性,包括抽象形狀、偏移、規模、開始時間和持續時間。通過結合向量量化,VQShape 學習了一個可泛化和描述性的抽象形狀碼本,用於表示來自不同領域的時間序列。
模型訓練和評估
VQShape 在多個數據集上進行預訓練,以學習與數據集無關的特徵和標記。實驗結果表明,VQShape 在各種分類任務上取得了與黑盒預訓練模型相當的性能,同時還提供了可解釋的潛在空間標記和表示來描述時間序列數據。
主要貢獻
- 提出了一種基於形狀級別特徵的、由抽象形狀和屬性組成的可解釋表示方法來描述時間序列數據,從而能夠學習與數據集無關的可解釋特徵。
- 引入了 VQShape,據我們所知,這是第一個從任何時間序列數據中提取可解釋表示的自監督預訓練模型。VQShape 還學習了一個包含可泛化到多個數據集的抽象形狀的碼本。
- 在多個數據集上進行預訓練,並且無需微調,VQShape 在基準分類數據集上取得了與現有黑盒模型相當的性能。我們明確證明了這些表示和 VQShape 對於未見數據集和領域是可解釋和可泛化的。
局限性和未來方向
- 與其他大型預訓練模型(如 MOMENT)相比,VQShape 的預訓練數據量仍然有限。
- 本文主要關注分類任務,因為提取的形狀標記主要適用於分類任務。
- 未來工作的一個重要方向是開發適用於其他時間序列分析任務(如預測、插補和異常檢測)的可解釋框架,利用 VQShape 提取的可解釋標記。
統計資料
VQShape 模型在包含從 UEA 多元時間序列分類檔案館的訓練集中提取的單變量時間序列的數據集上進行了 50 個 epoch 的訓練,該數據集包含 29 個數據集,共計 1,387,642 個單變量時間序列。
VQShape 模型的參數設置與 MOMENT-Small 模型相對應,包含 3710 萬個參數。
在使用 9 個 UEA 數據集進行預訓練的實驗中,VQShape 的平均準確率為 0.723,中位數準確率為 0.792。
引述
"In time-series analysis, many recent works seek to provide a unified view and representation for time-series across multiple domains, leading to the development of foundation models for time-series data."
"Despite their success, most of them remain black boxes since they cannot provide human-understandable representations."
"In this paper, we present VQShape, a pre-trained, generalizable, and interpretable model for time-series representation learning and classification."