本文研究了多臂老虎機(MAB)問題,其中學習者在T輪內與環境交互作用,每輪選擇一個臂膀並獲得相應的獎勵。學習者的目標是最小化後悔率,即最佳臂膀的期望累積獎勵與學習者的期望累積獎勵之差。
文章首先介紹了兩類主要的MAB算法:
跟隨正則化領導者(FTRL)算法:在每一輪中,FTRL算法通過求解一個優化問題來計算臂膀選擇概率。FTRL算法可以在對抗性和隨機環境下實現最優後悔率,但計算效率較低。
跟隨擾動領導者(FTPL)算法:FTPL算法通過對累積獎勵估計值添加隨機擾動來選擇臂膀,計算效率較高,但後悔率分析較為複雜。
本文提出了一種新的FTPL算法,稱為分佈式樂觀擾動算法(DOPA)。DOPA允許擾動服從一個不確定的分佈,並採用最大化不確定性下的樂觀主義原則來選擇臂膀。這種方法不僅計算效率高,而且可以統一地分析FTRL和FTPL算法的後悔率。
具體來說,DOPA的主要貢獻包括:
提出了一種基於邊際不確定性集合的擾動框架,可以恢復多種最優FTRL算法,包括使用泰勒熵和混合正則化器的算法。這解決了之前FTPL無法恢復這些FTRL算法的問題。
利用離散選擇理論,提出了一種高效的二分法算法來計算在最佳擾動分佈下的臂膀選擇概率,比標準FTRL算法快上104倍。
證明了DOPA在對抗性和隨機環境下都可以實現最優的後悔率界。
總的來說,DOPA提供了一種統一的框架,可以在保持FTRL算法的分析優勢的同時,實現FTPL算法的計算效率。這為設計新的MAB算法提供了新的洞見。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問