核心概念
FoundTS 是一個新的基準測試,旨在全面且公平地評估時間序列預測基礎模型的效能,涵蓋零樣本、少樣本和全樣本學習情境,並提供標準化的評估流程,以促進模型的公平比較。
摘要
文獻資訊
標題:FoundTS:針對時間序列預測基礎模型的全面統一基準測試
作者:Zhe Li, Xiangfei Qiu, Peng Chen, Yihang Wang, Hanyin Cheng, Yang Shu, Jilin Hu, Chenjuan Guo, Aoying Zhou, Qingsong Wen, Christian S. Jensen, Bin Yang
研究目標
本研究旨在提出一個名為 FoundTS 的基準測試,用於全面且公平地評估時間序列預測基礎模型的效能,並分析現有基礎模型的優缺點和固有限制,為未來模型設計提供方向。
方法
FoundTS 涵蓋了多種時間序列基礎模型,包括基於大型語言模型和時間序列預先訓練的模型,並支援零樣本、少樣本和全樣本等不同的預測策略。此外,FoundTS 提供了一個標準化的評估流程,包括資料集分割、載入、標準化和少樣本抽樣,以促進模型的公平比較。
主要發現
- 沒有單一模型在所有資料集上都表現最佳。
- 時間序列預先訓練模型在零樣本和少樣本學習情境下表現出優於特定模型的泛化能力。
- 在資料充足的情況下,基礎模型在全樣本學習情境下並不總是優於特定模型。
- 不同基礎模型在處理來自不同領域或具有不同特徵的資料集時表現出各自的優勢。
- 大型時間序列預先訓練模型(如 TimesFM)表現出最佳的零樣本效能,但在少樣本學習情境下,Timer 等模型表現更佳。
- 模型規模與效能之間並不存在嚴格的正相關關係,一些小型模型(如 ROSE 和 TTM)在精度和效率之間取得了較好的平衡。
主要結論
FoundTS 為時間序列預測基礎模型的評估提供了一個全面且公平的基準測試,揭示了現有模型的優缺點,並為未來模型設計提供了方向。
研究意義
本研究提出的 FoundTS 基準測試有助於推動時間序列預測基礎模型的發展,促進更強大、更通用、更高效的模型的出現。
局限性和未來研究方向
- 未來需要探索更通用的時間序列預測模型,以同時處理不同的預測情境。
- 需要研究更有效的訓練和推理方法,以降低基礎模型的成本,使其更易於在實際應用中部署。
- 需要進一步研究如何更好地利用大型預先訓練知識,以提高基礎模型的效能。
統計資料
FoundTS 包含來自十個領域的資料集,包括股票、醫療保健、能源、電力、環境、交通、自然、銀行、網路和經濟。
研究考慮了七種重要的時間序列特徵,包括季節性、趨勢、平穩性、轉變、漂移、相關性和非高斯性。
研究使用了四種預測長度:24、36、48 和 60,用於 NASDAQ、NN5、ILI 和 Wike2000 資料集;以及 96、192、336 和 720,用於其他資料集。
研究採用了 5% 的統一視窗抽樣策略進行評估。
引述
“現有關於理解此類模型的研究主要集中在對時間序列預測基礎模型的定性分析和分類。”
“穩健而全面的基準測試使研究人員能夠更嚴格地評估新模型,這對於推進最先進的技術至關重要。”
“FoundTS 旨在成為一個更可靠、更全面、更友好的基準測試,具有更廣泛的 TSF 模型和評估策略。”