Kim, J.-h., & Yun, S.-Y. (2024). Adversarial Bandits against Arbitrary Strategies. arXiv:2205.14839v5 [cs.LG].
本研究旨在探討在未知切換次數 S 的情況下,如何設計演算法有效解決針對任意策略的對抗性老虎機問題,並最小化 S-切換遺憾值。
本文採用主基架構,結合線上鏡像下降方法 (OMD) 設計演算法。首先,提出一個使用簡單 OMD 的主基演算法,實現 ˜O(S1/2K1/3T 2/3) 的遺憾值界限。接著,為減輕估計值變異的影響,提出使用自適應學習率的 OMD,並實現 ˜O(min{E[√(SKTρT(h†))], S√(KT)}) 的遺憾值界限。
本文提出的兩種演算法為解決未知切換次數 S 的對抗性老虎機問題提供了有效方法,並在不同情況下展現出優於現有方法的性能。
本研究推動了對抗性老虎機問題的研究,特別是在未知環境動態變化情況下的演算法設計和性能分析方面。
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Jung-hun Kim... klokken arxiv.org 10-11-2024
https://arxiv.org/pdf/2205.14839.pdfDypere Spørsmål