本文提出了一個新的基準測試HoTPP,專門用於評估長期MTPP預測。HoTPP包含多達4300萬個事件的大規模數據集,並提供自動回歸和並行推理的優化程序,為該領域的未來發展鋪平道路。
首先,作者指出現有的MTPP評估方法往往忽略了模型性能的關鍵方面。簡單的基於規則的基準線有時可以在使用OTD評估時優於流行的深度學習方法。
為了解決這些問題,作者提出了一種新的評估指標Temporal mAP (T-mAP),靈感來自於計算機視覺中的物體檢測方法。與現有方法不同,T-mAP評估了時間範圍內的所有錯誤,明確控制了排序,並對線性校準保持不變。作者還證明了T-mAP計算算法的正確性。
通過建立這一方法論,作者發現高精度的下一個事件預測並不一定轉化為高質量的長期預測;在許多情況下,實驗結果恰恰相反。這突出了為長期預測任務開發專門模型的必要性。
作者還發布了HoTPP,這是一個新的開源基準,旨在促進長期事件序列預測研究。HoTPP集成了數據預處理、培訓和評估,並引入了T-mAP指標。與以前的基準不同,HoTPP包括簡單的基於規則的基準和Next-K模型,同時預測多個未來事件。此外,HoTPP還提供了高效的推理算法,以支持大規模評估。
翻譯成其他語言
從原文內容
arxiv.org
深入探究