核心概念
本文提出了一個新的多臂老虎機框架,稱為圖觸發式多臂老虎機(Graph-Triggered Bandits, GTBs)。在這個框架中,臂的預期獎勵隨時間的演化受到一個定義在臂上的圖的影響。這個框架可以統一和推廣已知的休息型(rested)和無休息型(restless)多臂老虎機。作者重點研究了上升型(rising)和腐爛型(rotting)GTBs,並提出了相應的最優策略和無後悔算法。
要約
本文提出了一個新的多臂老虎機框架,稱為圖觸發式多臂老虎機(GTBs)。在這個框架中,每個臂的預期獎勵隨時間演化,受到一個定義在臂上的圖的影響。
具體來說:
- GTBs 框架可以統一和推廣已知的休息型(rested)和無休息型(restless)多臂老虎機。休息型和無休息型多臂老虎機分別對應於GTBs框架中的特殊情況。
- 作者重點研究了上升型(rising)和腐爛型(rotting) GTBs,這是兩種有趣的特殊情況。
- 對於上升型GTBs,作者分析了最優策略的複雜性,並提出了確定性和隨機情況下的無後悔算法,並分析了它們的理論保證。
- 對於腐爛型GTBs,作者也分析了最優策略的複雜性,並提出了一些算法及其理論分析。
- 整體而言,本文提出了一個統一的框架來推廣和擴展已知的多臂老虎機設定,並深入研究了其中的兩個有趣案例。
統計
圖觸發式多臂老虎機(GTBs)可以統一和推廣已知的休息型(rested)和無休息型(restless)多臂老虎機。
休息型多臂老虎機對應於GTBs框架中的自環圖,而無休息型多臂老虎機對應於完全連通圖。
上升型GTBs中,計算最優策略是NP難的,但對於分塊對角連通矩陣,最優策略可以在多項式時間內計算。
對於上升型GTBs,作者提出了確定性和隨機情況下的無後悔算法,並分析了它們的理論保證。
對於腐爛型GTBs,計算最優策略也是NP難的,但對於分塊對角連通矩陣,最優策略有一個簡單的封閉形式解。
引用
"本文提出了一個新的多臂老虎機框架,稱為圖觸發式多臂老虎機(GTBs)。在這個框架中,每個臂的預期獎勵隨時間演化,受到一個定義在臂上的圖的影響。"
"GTBs框架可以統一和推廣已知的休息型(rested)和無休息型(restless)多臂老虎機。休息型和無休息型多臂老虎機分別對應於GTBs框架中的特殊情況。"
"對於上升型GTBs,作者分析了最優策略的複雜性,並提出了確定性和隨機情況下的無後悔算法,並分析了它們的理論保證。"