核心概念
本文探討了一種關於零和序列的停止博弈,並提出了三種線上演算法來最大化玩家的預期收益,證明了這些演算法在二元情況和一般情況下的漸近效能均為 Θ(√n),並分析了其優缺點。
論文概述
本論文研究了一種關於零和序列的停止博弈問題,並提出了三種線上演算法來解決這個問題。論文首先針對二元情況(序列僅包含 +1 和 -1)設計了三種演算法,並分析了它們的預期收益和時間複雜度。接著,論文將其中一種演算法推廣到一般情況(序列包含任意實數),並證明了其在最壞情況下的最優性。
研究問題
給定一個由 n 個實數組成的零和序列,玩家可以觀察到序列中的元素並選擇在任意時刻停止遊戲。當玩家停止遊戲時,他/她將獲得從停止位置到序列末尾所有元素的總和作為收益。玩家的目標是在不知道序列順序的情況下,最大化其預期收益。
演算法設計與分析
二元情況
針對二元情況,論文提出了三種線上演算法:
演算法 1:基於門檻值的演算法
設定一個門檻值 t = Θ(√n)。
當玩家觀察到的序列前綴和首次達到 t 時停止遊戲。
如果序列前綴和始終未達到 t,則在遊戲結束時停止。
預期收益:Θ(√n)
優點:易於分析,適用於 n 值不確定的情況。
缺點:非最優解。
演算法 2:基於動態規劃的最優演算法
使用動態規劃計算一個 (m+1) × (m+1) 的矩陣 T,其中 T[i, j] 表示在狀態 (i, j) 下(已觀察到 i 個 -1 和 j 個 +1)開始遊戲並採用最優策略時的預期收益。
根據 T 矩陣構造一個停止矩陣 S,用於指導玩家在每個狀態下是否停止遊戲。
預期收益:Θ(√n)
優點:最優解。
缺點:需要預處理時間來計算 T 和 S 矩陣。
演算法 3:中間停止演算法
計算序列前一半元素的總和 S。
如果 S > 0,則停止遊戲;否則,繼續遊戲直到結束。
預期收益:Θ(√n)
優點:最簡單的演算法,無需任何簿記。
缺點:非最優解。
一般情況
論文將演算法 3 推廣到一般情況,並證明了其在最壞情況下的最優性。
演算法 3:中間停止演算法
計算序列前一半元素的總和 S。
如果 S > 0,則停止遊戲;否則,繼續遊戲直到結束。
預期收益:Ω(µ√n),其中 µ 為輸入序列的平均絕對值。
最壞情況最優性:對於一個由 n/2 個 µ 和 n/2 個 -µ 組成的均勻序列,該演算法的預期收益達到最壞情況下的最優值。
結論
本文研究了一種關於零和序列的停止博弈問題,並提出了三種線上演算法來解決這個問題。論文證明了這些演算法在二元情況和一般情況下的漸近效能均為 Θ(√n),並分析了其優缺點。
統計資料
使用標準的 52 張牌,玩家使用演算法 2 可以保證獲得 2.62 美元的預期收益(最優解)。
玩家使用演算法 1 可以保證獲得 1.54 美元的預期收益。