toplogo
登入

長期事件預測的HoTPP基準測試:我們擅長嗎?


核心概念
準確預測給定時間範圍內的多個未來事件對金融、零售、社交網絡和醫療保健應用程式至關重要。本文提出了一種新的評估方法Temporal mAP (T-mAP),以克服現有長期評估指標的局限性。我們的實驗表明,具有強大的下一個事件預測準確性的模型可能會產生較差的長期預測,反之亦然,這表明需要為每個任務開發專門的方法。
摘要

本文提出了一個新的基準測試HoTPP,專門用於評估長期MTPP預測。HoTPP包含多達4300萬個事件的大規模數據集,並提供自動回歸和並行推理的優化程序,為該領域的未來發展鋪平道路。

首先,作者指出現有的MTPP評估方法往往忽略了模型性能的關鍵方面。簡單的基於規則的基準線有時可以在使用OTD評估時優於流行的深度學習方法。

為了解決這些問題,作者提出了一種新的評估指標Temporal mAP (T-mAP),靈感來自於計算機視覺中的物體檢測方法。與現有方法不同,T-mAP評估了時間範圍內的所有錯誤,明確控制了排序,並對線性校準保持不變。作者還證明了T-mAP計算算法的正確性。

通過建立這一方法論,作者發現高精度的下一個事件預測並不一定轉化為高質量的長期預測;在許多情況下,實驗結果恰恰相反。這突出了為長期預測任務開發專門模型的必要性。

作者還發布了HoTPP,這是一個新的開源基準,旨在促進長期事件序列預測研究。HoTPP集成了數據預處理、培訓和評估,並引入了T-mAP指標。與以前的基準不同,HoTPP包括簡單的基於規則的基準和Next-K模型,同時預測多個未來事件。此外,HoTPP還提供了高效的推理算法,以支持大規模評估。

edit_icon

客製化摘要

edit_icon

使用 AI 重寫

edit_icon

產生引用格式

translate_icon

翻譯原文

visual_icon

產生心智圖

visit_icon

前往原文

統計資料
交易數據集中,最流行的基準線的平均長度為7.5,下一個項目準確率為32.78%,長期mAP為0.86%,MAE為0.752。 MIMIC-IV數據集中,最流行的基準線的平均長度為10.3,下一個項目準確率為4.77%,長期mAP為2.75%,MAE為14.52。 Retweet數據集中,最流行的基準線的平均長度為28.0,下一個項目準確率為58.50%,長期mAP為39.85%,MAE為18.82。 Amazon數據集中,最流行的基準線的平均長度為20.6,下一個項目準確率為33.46%,長期mAP為9.58%,MAE為0.304。 StackOverflow數據集中,最流行的基準線的平均長度為14.0,下一個項目準確率為42.90%,長期mAP為5.45%,MAE為0.744。
引述

從以下內容提煉的關鍵洞見

by Ivan Karpukh... arxiv.org 10-03-2024

https://arxiv.org/pdf/2406.14341.pdf
HoTPP Benchmark: Are We Good at the Long Horizon Events Forecasting?

深入探究

如何進一步提高長期事件預測的準確性和可靠性?

要進一步提高長期事件預測的準確性和可靠性,可以考慮以下幾個策略: 專門化模型的開發:如本文所述,高次事件預測的準確性與下一事件預測的準確性並不總是相關。因此,開發專門針對長期預測的模型是必要的。這些模型應該能夠考慮到事件之間的複雜依賴關係,並能夠有效處理自回歸預測中的累積誤差。 改進的評估指標:使用如T-mAP這樣的新評估指標,可以更全面地評估模型在長期預測中的表現。T-mAP考慮了時間誤差和標籤分佈,能夠更準確地反映模型的預測能力。 數據增強和多樣性:擴展訓練數據集的多樣性,並使用數據增強技術來生成更多的訓練樣本,可以幫助模型學習到更廣泛的事件模式,從而提高預測的準確性。 模型集成:通過集成多個模型的預測結果,可以減少單一模型的偏差,從而提高整體預測的準確性和穩定性。這種方法可以結合不同模型的優勢,特別是在處理長期預測時。 強化學習和自適應方法:利用強化學習技術來優化預測策略,根據實際預測結果不斷調整模型參數,能夠提高模型在長期預測中的適應性和準確性。

除了MTPP領域,T-mAP指標是否可以應用於其他領域,如動作識別?

是的,T-mAP指標不僅限於MTPP領域,還可以應用於其他領域,例如動作識別。T-mAP的設計理念源於物體檢測,旨在評估預測的準確性和完整性,這一特性使其在動作識別中同樣適用。具體來說,T-mAP可以用於以下方面: 時間序列分析:在動作識別中,動作的發生時間和類型是關鍵因素。T-mAP能夠評估預測的動作時間與實際動作時間之間的差異,從而提供更準確的評估。 多類別預測:動作識別通常涉及多種動作類型,T-mAP能夠同時考慮多個類別的預測,並根據預測的置信度進行評估,這對於動作識別的準確性至關重要。 錯誤分析:T-mAP能夠清晰地識別假陽性和假陰性,這對於改進動作識別模型的性能非常有幫助。通過分析這些錯誤,研究人員可以針對性地改進模型。 因此,T-mAP指標在動作識別等其他領域的應用潛力巨大,能夠促進這些領域的研究和發展。

本文提出的T-mAP計算算法是否可以為計算機視覺中的mAP估計算法帶來啟發?

是的,本文提出的T-mAP計算算法可以為計算機視覺中的mAP(mean Average Precision)估計算法帶來啟發。具體而言,T-mAP的設計理念和計算方法可以在以下幾個方面影響mAP的估計: 時間維度的考量:T-mAP將時間差異納入考量,這一點在計算機視覺中通常是以空間維度為主。這種將時間因素引入的思路,可以幫助計算機視覺領域更好地處理動態場景中的物體檢測問題。 錯誤匹配的處理:T-mAP在計算過程中明確區分了真陽性、假陽性和假陰性,這一點可以為mAP的計算提供更細緻的錯誤分析方法,從而提高評估的準確性。 多類別評估:T-mAP能夠同時考慮多個類別的預測,這一特性可以啟發計算機視覺中的mAP算法,使其在處理多類別物體檢測時更加全面。 超參數選擇:T-mAP的超參數設置方法可以為計算機視覺中的mAP算法提供新的思路,特別是在選擇評估範圍和容忍誤差方面。 總之,T-mAP的計算算法不僅能夠提升長期事件預測的準確性,還能為計算機視覺中的mAP估計算法提供新的視角和方法,促進這一領域的進一步發展。
0
star