核心概念
本文提出了一種將最大平均約束問題多項式時間簡化為半正定規劃可行性問題的方法,證明了Condon的簡單隨機博弈、隨機平均收益博弈,特別是平均收益博弈和奇偶博弈都可以簡化為半正定規劃問題。
摘要
文獻回顧
目前存在許多將博弈簡化為連續優化問題的研究:
- 單人平均收益博弈(馬可夫決策過程)可以簡化為線性規劃 [Put05],這意味著它們可以在多項式時間內求解。
- 對於雙人確定性平均收益博弈,Schewe [Sch09] 提出了一種將其簡化為具有指數表示大小係數的線性規劃的方法。這些規劃也可以解釋為非阿基米德有序域上的線性規劃 [ABGJ15, ABGJ14, ABGJ21]。
- Schewe 的想法在 [BEGM17] 中被推廣到隨機博弈,作者證明了隨機平均收益博弈可以用具有指數編碼大小約束的凸規劃來編碼。如果隨機節點的數量是固定的,則可以使用橢球法在偽多項式時間內求解此類規劃。
- 非阿基米德方法在 [AGS18] 的工作中從確定性博弈推廣到隨機博弈,證明了隨機平均收益博弈可以簡化為非阿基米德域上的半正定規劃問題。
- [Con93] 將簡單隨機博弈表示為非凸二次規劃問題。這種簡化在 [KRSW22] 中得到了進一步的研究。
- [GR05, SV06] 中提出了另一種簡化為具有 P 矩陣的(廣義)互補問題的方法,並在後續工作中得到了擴展 [JS08, FJS10, HIJ13]。
主要內容
本文基於 [AGS18] 的研究成果,提出了一種將最大平均約束問題多項式時間簡化為半正定規劃可行性問題的方法。
最大平均約束問題
最大平均約束滿足問題的實例是由約束組成的合取,每個約束都具有以下形式之一:
- x0 ≤ max(x1, ..., xk) 其中 k ∈ N
- x0 ≤ (x1 + x2) / 2
- x0 = c 其中 c 是有理常數
計算任務是確定這樣的合取是否在 Q ∪ {-∞}(等效地在 R ∪ {-∞})上有一個解。
簡化步驟
- 將停止簡單隨機博弈簡化為最大平均約束問題(Proposition 3.2)。
- 將最大平均約束問題簡化為非阿基米德半正定規劃問題(Theorem 4.1)。
- 將非阿基米德半正定規劃問題簡化為實數半正定規劃問題(Theorem 5.1, Proposition 5.2, Theorem 5.3, Corollary 5.4)。
總結
本文的結果表明,如果存在用於半正定規劃的多項式時間算法,則第二組中提到的所有問題都可以在多項式時間內解決。反之,本文的簡化可用於將(隨機)平均收益博弈或奇偶博弈的有趣實例族轉換為半正定規劃實例,這可能會產生(算法方法)半正定規劃的有趣實例族。