本文研究了一般控制問題,其中涉及對抗性擾動、無庫存反饋模型和非二次、對抗性選擇的成本函數。這類問題是經典控制理論(如線性二次控制)無法解決的。
作者提出了一種新的算法,可以在這些更一般的情況下實現最優的後悔率。主要貢獻包括:
將問題化約為無記憶的無庫存凸優化(BCO),避免了由於記憶結構和非二次損失函數而導致的高維估計器問題。
利用一般強凸和光滑成本函數的特殊曲率結構,獲得了最優的後悔率保證。
作者還提出了一種改進的BCO-M算法,可能具有獨立的興趣。這是實現最優控制後悔率的關鍵一步。
翻譯成其他語言
從原文內容
arxiv.org
深入探究