本文提出了一種新的基於擾動的追隨領導者(FTPL)算法,可以同時實現對抗性和隨機多臂老虎機問題的最優後悔率。與傳統的FTPL算法不同,本文的算法允許擾動服從一個不確定的分佈,並採用最大化不確定性下的樂觀主義原則來選擇臂膀。這種方法不僅計算效率高,而且可以統一地分析FTRL和FTPL算法的後悔率。